ETL
De Wikipedia, la enciclopedia libre
Son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and Load). Proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.
Tabla de contenidos |
[editar] Extraer
La primera parte de un proceso ETL consiste en extraer los datos desde las fuentes. La mayoría de los proyectos de almacenamiento de datos consolidan datos de diferentes sistemas de fuentes de datos. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos en un formato preparado para iniciar el proceso de transformación.
[editar] Transformar
La fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Algunas fuentes de datos requerirán alguna pequeña manipulación de los datos. No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones:
- Seleccionar solo ciertas columnas para su carga (o si lo prefiere, que las columnas con valores nulos no se carguen)
- Traducir códigos (Ej. Si la fuente almacena una "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer )
- Codificar valores libres (ej. Mapear "Hombre", "H" y "Sr" en un "1")
- Derivar nuevos valores calculados (ej. qty_venta = qty * precio)
- Unir datos de multiples fuentes (ej. búsquedas, fusión, etc)
- Sumarizar multiples filas de datos (ej. ventas totales de cada región)
- Generación de campos clave en el destino
- Transponer o pivotar (girando multiples columnas en filas y viceversa)
[editar] Carga
La fase de carga es el momento en el cual los datos de la fase anterior son cargados en el destino. Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de procesos diferentes. Algunos almacenes de datos sobrescriben información antigua con nuevos datos. Los sistemas más complejos pueden mantener un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un dato.
[editar] Algunas Herramientas ETL
- ETI*Extract (ahora llamada Eti Solution)
- Oracle Warehouse Builder
- Data Integrator (herramienta de Business Objects)
- Ab Initio
- Barracuda Software (Integrator)
- Cognos Decisionstream
- IBM Websphere DataStage (Previously Ascential DataStage)
- Microsoft DTS (incluido en SQL-Server)
- Informatica PowerCenter
- metaWORKS ( Document Tools)
- Kettle, Pentaho
- Scriptella ETL - Libre, Apache-licensed ETL
- Genio, Hummingbird
[editar] Libres
[editar] licencia
- SmartDB Workbench
- DataStudio
- Integrator
- Informatica PowerCenter
- Datastage d'IBM (suite au rachat d'Ascential en 2005)
- Sunopsis
- Oxio Data Intelligence ETL full web