Per DAMA l’integrazione dei dati descrive i processi relativi allo spostamento e al consolidamento dei dati all’interno e tra data store, applicazioni e organizzazioni.
In parole più semplici è l’insieme di tutte quelle azioni necessarie a unificare diverse sorgenti informative, in modo da creare una vista unica su un determinato processo. La necessità di gestire in modo efficiente il trasferimento dei dati è ormai un driver primario per la maggior parte delle organizzazioni che dispongono di centinaia o migliaia di database e archivi. Ma non è sufficiente nell’epoca della digital transformation: è infatti necessario saper gestire flussi di dati strutturati (interni o derivanti da fonti esterne) e non strutturati (esempio dati che arrivano dai social) che si riversano da fonti apparentemente infinite. L’integrazione consolida i dati in forme coerenti, fisiche o virtuali per soddisfare i requisiti di “utilizzo” di tutte le applicazioni e i processi aziendali.
Integrare i dati è fondamentale per diversi motivi:
- gestire, elaborare, confrontare, arricchire diverse tipologie di dati tra loro al fine di sviluppare analisi avanzate dalle quali estrarre nuova conoscenza
- disporre di dati in modo sicuro, in conformità alle normative, nel formato e nel lasso di tempo necessari
- diminuire i costi la complessità della gestione delle soluzioni unificare i sistemi e migliorare la collaborazione
- ricercare pattern nascosti e relazioni tra diverse fonti
- mappare il data lineage
- in caso di fusioni aziendali per migrare i dati o riunire i sistemi informativi
La Data Integration è prerequisito essenziale per il Data Warehousing, il Data Management, la Business Intelligence e per il Big Data Management. Se negli anni passati veniva considerato normale nelle divisioni IT creare dei silos di dati, separati per ogni funzione aziendale, oggi, con l’introduzione dei Big Data e del Cloud, è ormai imprescindibile oltrepassare questa configurazione architetturale.
I Big Data tendono a integrare vari tipi di dati, tra cui quelli:
- strutturati e archiviati nei database,
- di testo non strutturati nei documenti o nei file,
- altri tipi non strutturati come quelli audio, video e di streaming.
Ma è ormai chiaro come, più che dal volume di dati, il valore estraibile dai Big Data provenga dalla correlazione di una varietà di fonti, tipologie e formati di dati. Tuttavia, la gestione, l’integrazione e la governance di dati eterogenei è una sfida che molte aziende affrontano quotidianamente, in maniera non sempre ottimale.
Come applicare la Data Integration?
Esistono molteplici tecniche utilizzate per realizzare l’integrazione tra le diverse tipologie di dati sopra citate tra cui l’ETL (Extract, Transform, Load) che è sicuramente la più diffusa negli ultimi decenni e l’ELT che inverte le ultime due attività per ottenere maggiore funzionalità.
L’ETL prevede tre fasi:
Fase 1 – Estrazione: questo processo comprende la selezione dei dati richiesti da una sorgente o da diverse fonti. I dati estratti vengono quindi organizzati in un data store fisico su disco o su memoria.
Fase 2 – Trasformazione: i dati vengono trasformati in base ad una serie di regole per adattarsi al modello del data warehouse o alle esigenze operative, tipici esempi di trasformazioni sono modifiche al formato, le concatenazioni, l’eliminazione dei valori nulli, che potrebbero portare a risultati non corretti durante le analisi o modifica dell’ordine degli elementi di dati o dei record per fittare un pattern definito.
Fase 3 – Caricamento: questa fase consiste nella memorizzazione o presentazione fisica del risultato delle trasformazioni nel sistema target. Esistono due diversi tipi, ovvero si parla di caricamento in modalità batch, in cui i dati vengono integralmente riscritti sostituendo i precedenti, o in modalità incrementale periodica grazie alla quale si rilevano e inseriscono nel data warehouse solo i cambiamenti avvenuti a partire dall’ultimo caricamento.
Questo sistema nel tempo, nella sua applicazione, ha evidenziato però alcuni limiti:
- una crescente complessità di orchestrazione dei percorsi di trasformazione
- imponendo una descrizione dettagliata del processo non consente ottimizzazioni delle elaborazioni, né in ragione della distribuzione attuale dei dati, né in seguito a miglioramenti del software
- non è autonoma in termini di potenzialità funzionali e deve spesso ricorrere a sistemi esterni di appoggio
- la necessità di procedere con altri strumenti e per vie non coordinate alla definizione di tabelle, viste e infrastrutture varie di sostegno
- lo sforamento dei costi e dei tempi di implementazione
- l’abbattimento delle performance elaborative
- la crescita dei costi di manutenzione e di gestione di cambiamenti
- l’impossibilità di cicli di test e sviluppi paralleli e coordinati
- l’impossibilità pressoché totale di documentare e tracciare i processi, con buona pace dei requisiti di lineage e ripetibilità
- muove più e più volte significative masse di dati dalle aree di staging ai server di elaborazione e viceversa; non esegue le logiche elaborative dove risiedono i dati, ma muove giga di dati dove sa eseguire le trasformazioni funzionali.
L’ELT è una tecnologia emergente che si pone l’obiettivo di superare gli “svantaggi” dell’ETL, l’ordine delle fasi varia in Estrazione, Caricamento, Trasformazione (Extract, Load, Transform). Le trasformazioni si verificano dopo il caricamento sul sistema target, spesso come parte del processo. L’ELT, in sostanza, consente di istanziare i dati di origine sul sistema target come dati non elaborati, che possono essere utili per altri processi. Le modifiche avverranno quindi nel sistema di destinazione. Ciò è divenuto più comune con la diffusione degli ambienti Big Data dove il processo ELT carica il data lake.
Questa “variazione di fase” realizza alcuni benefici, i principali sono:
- analizza rapidamente grandi pool di dati e richiede meno manutenzione
- è un processo più economico, in quanto richiede meno tempo nel caricamento dei dati
- poiché comporta il caricamento e la trasformazione dei dati in pezzi più piccoli, rende più facile la gestione del progetto
- utilizza lo stesso hardware per l’elaborazione e la memorizzazione riducendo al minimo il costo aggiuntivo dell’hardware
- può elaborare sia dati semi-strutturati che non strutturati
Perché Irion EDM è una piattaforma unica per gestire, con efficacia, progetti di Data Integration in presenza di grandi moli di dati?
Irion EDM non è un sistema di ETL procedurale, ma ha un approccio dichiarativo, “disruptive” rispetto ai vecchi e tradizionali sistemi. Ha sviluppato con anni di esperienza, in contesti mission critical e “data intensive”, una serie di tecnologie avanzate per superarne i limiti:
- Irion EDM applica una tecnologia nominata DELT® (Declarative, Extract, Load and Transform) che va oltre l’approccio ELT, infatti oltre ad invertire le fasi, tutto il processo è svolto in conformità ad un modello dichiarativo.
- Irion è una piattaforma Metadata Driven: abilita e accende la potenza dei metadati. Non solo ti aiuta a trovarli, a identificarli e a catalogarli tramite evolute tecniche di metadata ingestion e translation, ma ti aiutiamo a potenziarli trasformandoli da passive metadata in active metadata.
- In virtù della tecnologia EasT® (Everything as a Table) ogni dataset utilizzato nell’elaborazione viene riesposto virtualmente come se fosse una tabella (o un insieme di tabelle). La piattaforma opera implicitamente tutte le trasformazioni necessarie per far sì che un insieme di dati disponibile in qualsiasi formato (file CSV, Excel, XML, Cobol, DB, Web Services, API, SAP, …) sia mappato opportunamente.
- Grazie ad IsolData® (altra tecnologia proprietaria) i dati elaborati dai moduli dell’applicazione non persistono nel sistema, ma vengono automaticamente gestiti senza che questo richieda lo sviluppo di codice. Isoldata è infatti la capacità di Irion di isolare in uno spazio di lavoro dedicato, tutto ciò che serve (input, output, dati temporanei) per eseguire una singola unità di elaborazione di una soluzione.
- La piattaforma Irion è in grado di connettersi ad un elevato numero di fonti: sono disponibili centinaia di connettori alle strutture informative e ai sistemi applicativi più disparati, da quelli più datati ai più moderni, strutturati e non strutturati, disponibili on-premises o multi-cloud. Connettori specifici possono, inoltre, essere sviluppati grazie a potenti funzionalità incluse nella piattaforma. Tutti i dati disponibili nelle differenti fonti sono accessibili dai moduli come tabelle virtuali.
- Irion EDM coordina automaticamente la partecipazione contemporanea di più team sullo stesso progetto; è pensato per essere utilizzato da tecnici IT, data analyst, data officer con funzionalità dedicate ai singoli ruoli.
- Per usare Irion EDM non è necessario imparare un nuovo linguaggio, basta semplicemente conoscere l’SQL imparato a scuola o sul “campo”
- e molto altro ancora…
Vuoi saperne di più?
Scopri attraverso esempi pratici come altre realtà di successo hanno già avviato la loro trasformazione.
Scarica il Whitepaper
Riduci la durata dei progetti e migliora le performance della tua azienda districando i processi di ETL. Leggi il white paper di Giovanni Scavino:
Come ridurre tempi e costi dei progetti di Enterprise Data Management
Tra gli argomenti trattati:
L'approccio dichiarativo e le pratiche di DM
EasT® e le tabelle virtuali temporanee
Potrebbe interessarti anche: