Explotación de datos con ETL
Hoy abordaremos la explotación de datos con ETL, siglas en inglés de extraer, transformar y cargar datos. ETL forma parte del data manager o business intelligence.
Definición
A grandes rasgos, es el proceso de organización del flujo de datos entre diversos sistemas. Para ello, aglutina herramientas para poder traspasar datos de las fuentes a un almacén de datos, transformarlos y cargarlos en otra base de datos, data smart o bodega de datos. Las herramientas ETL son las gestoras de los almacenes de datos.
Almacén de datos
El almacén de datos, y sus sinónimos bodega de datos o data warehouse, aglutina los datos de una empresa, procedentes de todos sus sistemas. Para un mejor procesamiento de dicha información, se subdivide en data marts y su objetivo es facilitar el control y análisis de los datos, junto con la optimización de la toma de decisiones.
Un almacén de datos estructura la información para una consulta más eficaz y eficiente y, a la vez, permite un mayor nivel de seguridad para los datos corporativos que alberga.
Pasos del ETL
- Extract:
Se extraen datos brutos de fuentes diversas y de todo tipo, desde un CRM hasta las redes sociales.
- Transform:
Los datos brutos se transforman en información útil para la empresa, alineada con los objetivos marcados; resumidamente, se busca obtener ratios y KPIs mediante distintos cálculos. Para dicha transformación podemos combinar recursos tecnológicos de reporting con acciones humanas.
- Load:
Los datos transformados y útiles son almacenados. En este punto, los miembros de la organización tendrán acceso a ellos y podrán visualizarlos, para su estudio y tomar decisiones. Generalmente, la visualización o monitoreo se consigue con herramientas para ello, como Tableau, Click View o SAP.
Ventajas
Tener implementada una herramienta ETL que sea la indicada para nuestra empresa proporcionará algunos beneficios a tener en cuenta:
- Mejora la toma de decisiones, en cuanto a aciertos y tiempo.
- Los datos son filtrados para centrarnos solo en los que sean relevantes, con valor y coherencia.
- Procesa datos de cualquier fuente y de todo tipo.
- Facilita, de manera automatizada, las tareas de gestión de datos al personal responsable.
- Agiliza el procesamiento de grandes cantidades de datos.
- Transforma datos no legibles en información legible, práctica y alcanzable.
Tipos
El mercado ofrece herramientas ETL divididos en cuatro categorías:
- Enterprise:
Son productos para grandes empresas por su alto coste. Incluyen muchas funcionalidades y están preparados para conectar un relevante volumen de datos.
- Open source:
Son de código libre y gratuitas. Su enfoque y operativa es más generalista, por lo que en muchos casos necesita personalizar los objetivos concretos mediante un consultor especialista.
- Personalizadas:
Se desarrollan a medida de cada cliente en particular. Su desarrollo es costoso pero sus resultados acaban siendo también a medida de las necesidades concretas de cada organización
- Cloud:
Tienen todas ventajas de la nube, como su flexibilidad y el pago por uso.
Cómo elegir
Existen diversos elementos a valorar para elegir el ETL mejor para nosotros.
- Coste: Debemos saber los costes totales, incluyendo adquisición, soporte, formación y consultoría, recordando la posibilidad de usar productos con licencia o de código libre.
- Facilidad de uso: una herramienta con un buena interfaz que sea intuitiva reduce tiempos y, por ello, costes.
- Compatibilidad con nuestros sistemas y distintas plataformas.
- Velocidad necesaria, según el volumen de datos y los procesos a llevar a cabo.
- Calidad de datos, priorizando que sean limpios con una buena validación.
- Instrumentos de control, de detección y de solución de problemas.
- Conectividad con todo el sistema, sobre todo a la hora de extraer datos de las diferentes fuentes.
Algunas herramientas ETL
Existes diversos productos específicos en el mercado, pero algunos de los más conocidos son SAP data services, Talend Open Studio (open source) o Microsoft SQL Server Integration Services, entre otros.
ETL y Big Data
Con la necesidad de datos en tiempo real y los nuevos sistemas Big Data, el ETL está en cuestión como tal, ya que el tiempo real no es una de las ventajas del ETL. Por ello, y de momento, están apareciendo soluciones híbridas como SAP HANA, Hadoop ETL o PowerCenter Big Data, junto con arquitecturas mixtas de Business Intelligence de ETL y Big Data.
También te puede interesar
¿Qué es Essential Data Management?
Datos maestros. Descubre el Master Data Management (MDM)
¿Su estrategia de datos está construida como una lasaña fresca?
No hay comentarios