Según DAMA, la integración de datos “describe los procesos relacionados con el movimiento y la consolidación de los datos dentro y entre los almacenes de datos, las aplicaciones y las organizaciones”.
Simplificando, se trata de todas las acciones necesarias para unificar varias fuentes de datos y crear una visión común de un determinado proceso. La mayoría de las organizaciones con cientos o miles de bases de datos y archivos se ven impulsadas principalmente por la necesidad de gestionar eficazmente la transferencia de estos activos. Sin embargo, en la era de la transformación digital, la transferencia eficiente de datos no es suficiente. Es igualmente necesario gestionar los flujos de datos estructurados (internos o procedentes de fuentes externas) y no estructurados (es decir, de las redes sociales). Y estos fluyen desde fuentes aparentemente infinitas. La integración de datos los consolida en una forma consistente, física o virtual, que cumple los requisitos de “uso” por parte de todas las aplicaciones y procesos empresariales.
La integración de datos es fundamental por varias razones:
- gestionar, procesar, comparar y enriquecer diferentes tipos de datos con el objetivo de realizar análisis avanzados
mantener los datos de forma segura y conforme a la normativa, en el formato requerido y en el momento adecuado
reducir los costes y la complejidad de la gestión de las soluciones, unificar los sistemas y mejorar la colaboración
encontrar patrones y relaciones latentes entre diferentes fuentes
mapear el linaje de datos
la migración de datos o la unificación de sistemas en caso de fusiones.
La integración de datos es un requisito esencial para el almacenamiento de datos, la gestión de datos, el Business Intelligence y la gestión de Big Data. Antes era normal que los departamentos de TI crearan silos de datos, separados para cada departamento. Hoy en día, la introducción de Big Data y Cloud impone la necesidad de una configuración arquitectónica más moderna.
Big Data tiende a integrar diferentes tipos de datos, incluyendo
- estructurados y almacenados en bases de datos,
texto no estructurado en documentos o archivos,
otros tipos no estructurados como el audio, el vídeo y el streaming.
Sin embargo, ahora está claro que el valor de Big Data no proviene tanto de su volumen, sino de la correlación entre la diversidad de fuentes, tipos y formatos. La gestión de datos heterogéneos, la integración de datos y la Data Governance siguen siendo retos a los que muchas organizaciones se enfrentan a diario, pero no siempre de forma óptima.
¿Cómo aplicar la integración de datos?
Como se ha mencionado anteriormente, existen muchas técnicas para integrar diferentes tipos de datos. La más común en las últimas décadas es el método ETL (Extract, Transform, Load), mientras que en ELT las dos últimas actividades se realizan en orden inverso para maximizar la funcionalidad.
Hay tres fases de ETL:
Fase 1 – Extracción: se seleccionan los datos necesarios de una o varias fuentes. Los datos extraídos se organizan en un almacén de datos físico.
Fase 2 – Transformación: se transforman los datos basándose en un conjunto de reglas para adaptarlos al modelo de almacén de datos o a las necesidades operativas. Ejemplos típicos de transformaciones son los cambios de formato, la concatenación de datos, la eliminación de valores nulos para evitar posibles resultados erróneos durante el análisis, o la modificación del orden de los elementos de datos o registros para que se ajusten a un patrón establecido.
Fase 3 – Carga: almacenar o representar físicamente el resultado de las transformaciones en el sistema de destino. Hay dos tipos diferentes de carga. Una es en modo batch, cuando los datos se reescriben completamente y sustituyen a los anteriores. El otro es el modo incremental periódico, que identifica lo que ha cambiado con respecto a la carga anterior e inserta estos cambios en el almacén de datos.
Sin embargo, con el paso del tiempo, este sistema ha mostrado ciertas limitaciones en su aplicación
- una complejidad creciente de la orquestación de las vías de transformación,
- al obligar a una descripción detallada del proceso, no permite optimizar el tratamiento, ni en función de la distribución actual de los datos ni en respuesta a las mejoras del software
- no es autónomo en términos de potencial funcional y a menudo tiene que depender de sistemas de apoyo externos,
- necesidad de proceder con otras herramientas y de forma descoordinada para definir tablas de vista y diferentes infraestructuras de apoyo,
- sobrecarga de los costes y del tiempo de implementación,
- reducción de la potencia informática,
- el aumento de los costes de mantenimiento y de gestión del cambio,
- la imposibilidad de realizar ciclos de desarrollo y pruebas paralelos y coordinados,
- la imposibilidad casi total de documentar y rastrear los procesos, con el debido respeto a los requisitos de linaje y repetibilidad.
- traslada repetidamente importantes volúmenes de datos de las zonas de preparación a los servidores de procesamiento y viceversa. En lugar de aplicar la lógica de procesamiento donde se almacenan los datos, traslada gigabytes de datos a donde se realizan las transformaciones funcionales.
ELT es una tecnología emergente diseñada para superar los “inconvenientes” de ETL. El orden de las fases se cambia en Extracción, Carga, Transformación. Las transformaciones se producen después de cargar los datos en el sistema de destino, a menudo como parte del proceso. En esencia, la ETL permite instanciar los datos originales en el sistema de destino como datos brutos que pueden utilizarse en otros procesos. Los cambios se realizan entonces en el sistema de destino. Esto se ha vuelto más común con la proliferación de los entornos de Big Data, donde el proceso de ELT carga el Data Lake.
Esta “variación de fase” aporta ciertas ventajas. Los más importantes son:
- analiza rápidamente grandes conjuntos de datos y requiere menos mantenimiento
- es un proceso menos costoso, ya que requiere menos tiempo para cargar los datos
- facilita la gestión del proyecto, ya que los datos se cargan y transforman en lotes más pequeños
- utiliza el mismo hardware para el procesamiento y el almacenamiento, lo que reduce el coste adicional de hardware
- puede procesar tanto datos semiestructurados como no estructurados
¿Qué hace de Irion EDM una plataforma única para la gestión eficaz de proyectos de integración de datos con grandes volúmenes de datos?
Irion EDM no es un sistema ETL procedimental. Su enfoque declarativo es “disruptivo” respecto a los sistemas antiguos y tradicionales. Años de experiencia en contextos de misión crítica y de uso intensivo de datos han llevado al desarrollo de tecnologías avanzadas para superar sus límites:
- Irion EDM uses the technology called DELT® (Declarative, Extract, Load and Transform) that goes beyond ELT. In fact, besides the reversion of the phases, the entire process is compliant with the declarative model.
- Irion EDM is a Metadata Driven platform: it uses the power of metadata. Not only can you find, identify, and catalog it using advanced metadata ingestion and translation techniques. It helps you make it even more useful by transforming passive metadata into active.
- Gracias a la tecnología EasT® (Everything as a Table), cada conjunto de datos utilizado en el procesamiento se muestra virtualmente como si fuera una tabla (o un conjunto de tablas). La plataforma ejecuta implícitamente todas las transformaciones necesarias para mapear correctamente los datos disponibles en cualquier formato (CSV, Excel, XML, Cobol, DB, Web Services, API, SAP, etc).
- Gracias a IsolData® (otra tecnología propia), los datos procesados por los módulos de la aplicación no persisten en el sistema, sino que se gestionan automáticamente y sin código. Isoldata refleja la capacidad de Irion EDM de aislar en un espacio de trabajo especial todo lo necesario (entrada, salida, datos temporales) para ejecutar una sola unidad de procesamiento de una solución.
- La plataforma Irion EDM puede conectarse a una amplia gama de fuentes. Hay cientos de conectores disponibles para una gran variedad de estructuras de información y aplicaciones, antiguas y modernas, estructuradas y no estructuradas, on-premise y multi-cloud. Además, existe la posibilidad de desarrollar conectores especiales gracias a las potentes funciones integradas en la plataforma. Todos los datos disponibles en las diferentes fuentes son accesibles desde los módulos como tablas virtuales.
- Irion EDM coordina automáticamente varios equipos que trabajan simultáneamente en el mismo proyecto. Está pensada para que la utilicen analistas de negocio, técnicos de TI, responsables de datos y cuenta con funciones especiales para roles individuales.
No es necesario aprender un nuevo lenguaje para utilizar Irion EDM. La experiencia práctica con SQL o los conocimientos obtenidos en la escuela son suficientes. - y mucho más…
¿Quiere saber más?
¿Quiere saber más?
Le proporcionaremos ejemplos ilustrativos de cómo otras empresas
ya han iniciado su transformación.
Descargar el libro blanco
Reduzca la duración del proyecto y mejore el rendimiento de su negocio mientras desentraña los procesos ETL. Lea el libro blanco de Giovanni Scavino:
Cómo reducir la duración y los costes de los proyectos de gestión de datos empresariales
Entre los temas tratados:
El enfoque declarativo y las prácticas de DM
EasT® y tablas virtuales temporales
También te puede interesar: