En los últimos tiempos mucho se ha hablado del data lake. Pero, como con otros términos de marketing, hay mucho desconocimiento sobre el tema.
Cuando se inicia un nuevo proyecto de analítica, generalmente se piensa en la herramienta de BI, de integración de datos y de data warehouse.
Es poco probable que inicialmente se piense en el data lake. A menudo el data lake es una idea posterior. Cuando se dan cuenta de por qué necesitan un DL, ya tienen grandes cantidades de datos sin procesar, transitorios y curados que viven en un data warehouse o una base de datos. A medida que aumentan los volúmenes de datos y aumenta la velocidad, también lo hacen los desafíos, casi exponencialmente. En resumen, algunos de estos desafíos son:
Incremento de costos y esfuerzo
- El almacenamiento de todos los datos históricos y sin procesar se vuelve costoso y llega un punto en el que, para limitar los costos, los datos se archivan o eliminan.
- Los data warehouses son costosos por una buena razón: utilizan almacenamiento premium y tecnología patentada para proporcionar análisis de alto rendimiento, pero tienen recursos limitados.
- Los grandes data warehouses tienen un TCO (costo total de propiedad) muy alto; entre los costos se incluyen las copias de seguridad, la administración, el mantenimiento y la experiencia requerida.
- En un DW es necesario comprender y modelar los datos por adelantado (schema-on-write)
Barreras de acceso
- En un DW el almacenamiento y el cómputo están estrechamente acoplados. Por este motivo para acceder a los datos (para exploración y descubrimiento) es necesario ir a través de la capa informática dedicada de DW para actividades simples de recuperación / carga de datos.
- No facilita el intercambio de datos de manera simple, de bajo costo y de bajo impacto.
- Limita la facilidad de exploración: puede tener un impacto en los sistemas de producción o requiere un DBA para brindar acceso.
Conocimientos limitados
- Baja confiabilidad: los datos suelen ser seleccionados, agregados, parciales o incompletos (para mantener bajos los costos)
- Es posible que las tecnologías DW no admitan fácil o eficientemente el análisis a gran escala de datos en formato sin procesar como json (datos semiestructurados).
Impacto y escala
- Las cargas de trabajo de transformación (ETL) y el intercambio de datos no pueden escalar sin aumentar significativamente los costos.
- Las cargas de trabajo mixtas (distintas de las analíticas) compiten por los recursos.
- DW tiene simultaneidad limitada por un costo determinado.
- Los recursos de DW deben conservarse para análisis de estilo BI de alto rendimiento y baja latencia en lugar de cargas de trabajo ELT de alta intensidad.
Por el contrario, los data lakes en general pueden proporcionar los siguientes beneficios:
Costo de propiedad más bajo
- El almacenamiento en la nube es enormemente escalable y de bajo costo.
- Económico: separación de almacenamiento y computo
- Almacene todo, no descarte nada, entienda los datos después, sin un costo o esfuerzo significativo por adelantado (schema-on-read)
- Altos niveles de disponibilidad y redundancia
- Comparta datos de forma más sencilla y sin afectar a los sistemas de misión crítica
Democratización de datos y conocimientos más profundos
- Facilita el acceso a los datos, promueve el autoservicio
- Facilita el montaje y desmontaje de entornos de prototipos y sandbox analíticos rápidamente
- Almacena datos confiables: la combinación de varias fuentes de datos con un historial completo puede generar conocimientos más profundos. Los científicos de datos a menudo quieren tantos datos como sea posible en formato original.
- El aumento en el acceso (simultaneidad) se puede escalar agregando computación según sea necesario
- Los data lake ahora se utilizan comúnmente como fuente de verdad
¿Por qué no es tan popular como el data warehouse?
Las principales razones pueden deberse a las habilidades, el tiempo y la inversión inicial requerida. Hadoop (HDFS) era una opción común, ya que era una de las pocas tecnologías que podía manejar el volumen y la variedad de datos. Para implementar este tipo de data lake generalmente sólo las grandes empresas de tecnología podían hacer tal inversión en hardware y poseían las habilidades necesarias. Tener científicos de datos que pudieran construir modelos de aprendizaje automático era igualmente para los pocos que tenían la amplitud y el volumen de datos y experiencia para hacerlo.
Hoy en día Spark es la mejor manera de procesar datos y ejecutar análisis exploratorios en el data lake. Desafortunadamente, no todas las organizaciones sienten que tienen la experiencia o la capacidad para ejecutar cargas de trabajo basadas en Spark. Esta brecha de habilidades percibida dentro de la organización sigue siendo, hasta el día de hoy, una de las principales razones por las que muchos evitan por completo una estrategia de data lake. Sin embargo, estamos llegando a un punto en la madurez de estas tecnologías de big data y servicios de datos integrados basados en la nube, que pueden ayudar a cerrar la brecha y acelerar el camino hacia un data lake.

Conclusión
Si está por iniciar un proyecto de modernización de su plataforma de datos, el data lake debe ser tenido en cuenta junto al resto de los componentes.
Es falso el dilema data lake vs data warehouse. Son componentes complementarios, cada uno cumple un rol específico dentro de la arquitectura.
El éxito del data lake no depende únicamente de la tecnología, también se requiere una transformación interna: un cambio cultural para adoptar este enfoque centrado en los datos. Encontrar y comprender datos en el data lake se convierte en un facilitador esencial y, en particular, cualquier conocimiento debe convertirse en información de fácil acceso. Esto se puede hacer a través de los roles designados, como los propietarios de los datos o los data stewards, así como a través del crowdsourcing y la automatización, pero es necesario que haya un cambio de mentalidad en toda la organización para adoptar una cultura de compartir y corresponsabilidad.