¿Qué es y para qué sirve un ‘data lake’?

La pregunta del momento es que es un data lake. Hoy los datos son tan valiosos como el mismo oro y, al igual que sucede con este metal, hay que guardarlos a buen recaudo. Esto es lo que te ofrece un data lake, la posibilidad de guardar una gran cantidad de datos en bruto para un uso futuro. En esta entrada aprenderás sobre él, incluso a realizar el tuyo propio.

Cómo hacer un data lake

Construir un data lake propio es muy sencillo. Empresas como Google ofrecen plataformas en la nube para elaborarlo. Si lo que buscas es un lugar donde contener una gran cantidad de datos, esta es tu solución. En algunos casos llegan a acumularse petabytes o exabytes de información, la cual puedes organizar y categorizar como mejor te convenga.

Lo primero que debes hacer es registrarte en alguna plataforma que te permita crear estos bancos de datos, como es Google Cloud Platform (GCP). Así, conseguirás un espacio en la nube al que enviar los datos, los cuales serán procesados en la misma plataforma como indiques. Tan solo debes enviar los datos a tu nuevo data lake para darles el uso que necesites.

Puedes enviar información en bruto desde sensores, otros bancos de datos en la nube o dispositivos, analizarlos con diferentes herramientas y producir estadísticas. Esto dependerá del tipo de archivo almacenado. Por ejemplo, al utilizar el formato Avro podrás aplicar Hive on Cloud Dataproc para conseguir consultas en SQL. También puedes realizar consultas contra los datos en BigQuery.

Data lake y data warehouse

Ambos conceptos, data lake y data warehouse, suelen confundirse; sin embargo, ofrecen diferentes posibilidades, las cuales merece la pena conocer.

Un DATA WAREHOUSE permite almacenar datos, pero no de cualquier manera. La información debe almacenarse de forma estructurada en función de las necesidades del usuario. Además, los datos han de cargarse con distintos valores de tiempo, algo que da la posibilidad de establecer tendencias y realizar históricos. También almacena los metadatos, por lo que tendrás una información completa y muy sencilla de estructurar. Esto es así, ya que el objetivo es facilitar el procesamiento de datos, en especial cuando buscas diferentes puntos de vista, pero sin sacrificar en ningún momento la velocidad del proceso.

Por su parte, un DATA LAKE, como recordarás, es un almacén de datos en bruto. Estos se mantienen como han llegado hasta que son utilizados. Está construido sobre una arquitectura plana, se alimenta del big data y los datos en tiempo real, y acepta tanto información estructurada como desestructurada. Asimismo, es muy sencillo de utilizar; te permite guardar pasos de preparación de datos y compartirlos a alta velocidad.

Así, la principal diferencia entre ambos es la forma en la que almacenas los datos. Mientras que un data lake te permite guardarlos en bruto, un data warehouse solo admite datos que ya estén estructurados. No obstante, ambos son una manera excelente de procesar una gran cantidad de información en un tiempo relativamente corto.

Ejemplos de data lake

Los data lake destacan en combinación con el big data. Estas verdaderas riadas de información están empezando a despuntar en diversos campos. Un ejemplo de uso es la medicina, ya que es posible almacenar una cantidad masiva de datos de millones de pacientes. Esto da la posibilidad de analizar la genética de millones de personas, la evolución de sus enfermedades y sus patrones de propagación, decodificar el ADN en minutos o, simplemente, realizar mejores diagnósticos.

El campo del deporte también se apoya en esta tecnología. Para que, por ejemplo, un equipo de fútbol mejore puede recurrir al uso de datos. De esta manera, es posible analizar el rendimiento de cada jugador, controlar la nutrición, analizar estrategias u ofrecer información adicional a los espectadores en tiempo real.

Por descontado, la ciencia también se beneficia de esta herramienta. Un buen ejemplo es el CERN y su colisionador de hadrones. Para que te hagas una idea de las posibilidades y volúmenes que maneja el data lake, el acelerador llega a generar 30 petabytes de datos y cuenta con 150 centros en todo el mundo para analizarlos.

Opciones de data lake

Lo que te ofrece un data lake es un almacenamiento masivo, en bruto, totalmente seguro y con una gran personalización a la hora de procesar los datos. Además, es posible conservarlos durante periodos indefinidos de tiempo, soporta todo tipo de datos y aporta más flexibilidad que un data warehouse. Así, contarás con un potente almacén para guardar toda esa valiosa información que tanto necesitas para realizar tu trabajo.

La pregunta de que es data lake ya tiene una respuesta. Esta solución para almacenamiento masivo ofrece grandes posibilidades, en especial cuando va de la mano del big data. No la confundas con un data warehouse, ya que están destinados a usos radicalmente distintos aunque ambos coincidan en el almacenaje de datos.

Si quieres saber más sobre como los data lake, los data warehouse o incluso el big data puede ayudar a tu negocio ponte en contacto con nosotros.

2019-08-21T08:45:11+02:0021 agosto, 2019|
Ir a Arriba