jueves, 28 de agosto de 2014

Migración e integración de datos en un sistema BI

En este post voy a continuar hablando sobre conceptos relacionados con sistemas de Business Intelligence. En este caso voy a referirme a la migración e integración de datos, lo que se suele conocer mas como procesos ETL.

La integración de datos es un concepto íntimamente ligado a la arquitectura Datawarehouse (DW) desde sus etapas iniciales. Esencialmente un DW debe ser capaz de combinar en un único espacio los datos que recibe de diversas fuentes.

Para lograr esta integración se emplean los procesos de Extracción, Transformación y Carga o, por sus siglas en inglés, ETL. Estos procesos siguen una serie de pasos a través de los cuales consiguen la integración final de los datos. Para ello, en primer lugar, extraen los datos a partir de fuentes diversas y heterogéneas, para después transformarlos a través de conversiones y limpieza, y finalmente ser
cargados en el DW.

La eficiencia y fiabilidad de los procesos ETL son un factor clave que influye directamente en el correcto funcionamiento de nuestro DW. Hay que destacar que un proceso ETL supone complejos desarrollos. Claro está, que si vamos a trabajar con el BI de SAP, este nos proporcionará de manera estandar muchos procesos ETL predeterminados. Aunque siempre tendremos que hacer desarrollos a medida, pues muy pocas veces, estos procesos se adaptarán 100% a nuestras necesidades.

FASES DE LOS PROCESOS ETL

Hay que tener en cuenta que el proceso de ETL consume una gran parte del tiempo destinado a un proyecto de BI (alrededor del 60% o el 80%), lo cual le convierte en un punto estratégico para el éxito de nuestro proyecto, que requiere una estrategia clara, recursos, habilidades especializadas y tecnología.

Todo proceso de ETL requiere una extracción, una transformación y una carga para poder acceder a los datos de las fuentes de información, e incluye cinco subprocesos:

1. Extracción: mediante este proceso se recuperan los datos procedentes de las diversas fuentes de información, obteniéndose, por consiguiente, datos en bruto.

2. Limpieza: en este paso se chequean los datos en bruto para ver su calidad y para eliminar duplicados, corregir posible errores y completar los valores vacíos. Gracias a este proceso se transforman los datos para evitar en lo posible errores de carga, y obtener, al final datos limpios y de calidad.

3. Transformación: gracias a este paso, los datos limpios y de calidad se recuperan, para proceder a su estructura y resumen en los distintos modelos de análisis. Al final de esta fase se dispondrá de datos limpios, consistentes, resumidos y útiles.

4. Integración: en este paso se comprueba que los datos cargados en el DW son consistentes con las definiciones y formatos del DW, asegurándonos su correcta integración dentro de los diversos modelos enmarcados en las diferentes áreas de negocio definidas en el mismo. No hay que olvidar que este tipo de procesos pueden ser complejos.

5. Carga: en este paso final se añaden los nuevos datos al DW.


Estos pasos son a nivel conceptual. No todas las herramientas de BI tienen porque seguirlos, o incluso puede añadir algun paso adicional. Lo que está claro es que este proceso es uno de los procesos fundamentales dentro de un proyecto de BI. Debemos conocerlo y dominarlo ampliamente.


No hay comentarios:

Publicar un comentario