Come già visto a proposito dei sistemi informativi aziendali, un azienda e nello specifico un manager possono contare su un’architettura tecnologica articolata 3 livelli: Il primo livello è costituito dai sistemi di supporto operativo ERP e CRM, il secondo è costituito dalle basi dati direzionali, realizzate con approcci logici di data warehousinig o di data marting, il terzo è quello dei sistemi di business intelligence.
Tra il primo e il secondo livello troviamo quei processi che eseguono il ciclo comunemente definito ETL (Extraction, Trasformation, Loading). [Daniele Germani]
Questa applicazione consente il passaggio dei dati dai sistemi di OLTP al Data Warehouse. Spostare i dati da un posto ad un altro costituisce, infatti, la routine per le aziende. L’unico problema è che questi si trovano sparsi su sistemi eterogenei, di ogni tipo, che hanno formati diversi (es.sistemi di CRM, sistemi di contabilità). Per ovviare a questi inconvenienti, alcuni produttori propongono proprio software ETL.
Lo scopo principale di un’applicazione ETL (acronimo di Estrazione, Trasformazione e Caricamento) è rendere disponibili i dati raccolti in azienda, provenienti dalle fonti più disparate, ai soggetti incaricati di assumere le decisioni, nella forma e secondo le tempistiche più idonee a supportare il processo decisionale. I software di ETL permettono, infatti, di leggere i dati dalla loro fonte, ripulirli e formattarli in modo uniforme, e poi caricarli nel repository di destinazione per l'uso.
[Laura Rotatori ]
L'ETL presenta quindi diverse fasi.
•Estrazione: questo elemento è responsabile dell’estrazione dei dati dalla sorgente del sistema. I dati estratti vengono poi caricati su un DW temporaneo (un database relazionale in genere distinto dal DW su cui si opera)per la manipolazione da parte delle rimanenti funzioni ETL.
•Trasformazione: è l’elemento responsabile della convalida dei dati estratti, nel rispetto dell’integrità dei dati, del tipo di conversione utilizzata (per garantire che i valori per un determinato campo vengono memorizzati nello stesso modo nel DW, indipendentemente dal modo in cui sono stati memorizzati nel sistema fonte) e dell’applicazione delle regole di business. E’ il più complicato degli elementi ETL.
[Daniela Di Russo ]
Questa fase consiste, ad esempio, nel:
- Selezionare solo quelli che sono di interesse per il sistema
- Normalizzare i dati (per esempio eliminando i duplicati)
- Tradurre dati codificati
- Derivare nuovi dati calcolati
- Eseguire accoppiamenti (join) tra dati recuperati da differenti tabelle
- Raggruppare i dati
[Lorenzo Perrella ]
•Caricamento: questo elemento è responsabile per il caricamento dei dati trasformati in un DW. Tali magazzini, vengono aggiornati periodicamente e queste operazioni di aggiornamento sono eseguite spesso in modalità off-line, in modo che i dati possano essere caricati più velocemente.
[Daniela Di Russo ]
Da quanto detto possiamo capire l’importanza del ruolo svolto dai i Software di ETL all’interno del sistema informativo aziendale. In particolare possiamo dire che questi software permettono di ridurre il tempo per la condurre attività di Business Intelligence (BI) grazie alla rapida generazione di Data Warehouse, Data Mart e flussi di dati.
[Laura Rotatori ]
La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), a near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).
Ci sono numerose difficoltà da fronteggiare per ottenere un´implementazione efficiente ed affidabile dei processi ETL.
•I volumi di dati crescono in maniera esponenziale, e i processi ETL devono elaborare grandi quantità di dati granulari (prodotti venduti, chiamate telefoniche, transazioni bancarie.).
Alcuni sistemi BI raramente vengono aggiornati incrementalmente mentre altri richiedono un caricamento completo ad ogni iterazione.
•Con l´aumento della complessità dei sistemi informatici, anche la disparità delle sorgenti aumenta. I processi ETL richiedono una connettività di vasta portata per i pacchetti di applicazioni (ERP, CRM, ecc.), database, mainframe, file, Servizi Web, ecc.
•Le strutture e le applicazioni di Business Intelligence comprendono data warehouse, data mart, applicazioni OLAP per l´analisi, il reporting, il dashboarding, lo scorecarding, ecc. Tutte queste strutture target hanno diversi requisiti di trasformazione dei dati e diverse latenze.
•Le trasformazioni coinvolte nei processi ETL possono essere altamente complesse. I dati devono essere aggregati, sottoposti a parsing, calcolati, elaborati statisticamente, ecc. Le trasformazioni specifiche BI sono anch´esse necessarie, come lo Slowly Changing Dimensions.
Mentre la BI tende alla simultaneità real-time, i data warehouse e data mart devono essere aggiornati più spesso e le finestre di tempo del caricamento diventano sempre più brevi.
[Chiara Pellicciotta ]
Realizzare e popolare un Data Warehouse e/o Data Mart nel rispetto dei tempi, costruire rapidamente un centro analitico per un progetto speciale, eseguire una estrazione di file per creare un report accurato, richiedono un notevole sforzo quotidiano per le organizzazioni.
Principali Benefici
•Riduzione del tempo per condurre attività di Business Intelligence grazie alla rapida generazione di Data Warehouse, Data Mart e flussi di dati.
•Controlli sui costi per l’integrazione dei dati, sviluppo dei processi ETL e manutenzione grazie a software solidi ed affidabili che favoriscono la collaborazione e la gestione dei metadati comuni dall’inizio alla fine del flusso dei dati.
•Creazione di processi ETL riutilizzabili, facilmente modificabili contenenti già al proprio interno robuste funzionalità per la qualità e correttezza dei dati.
-
•Incremento del ritorno sugli investimenti IT già effettuati grazie alla scalabilità multipiattaforma e alla interoperabilità standard fra applicazioni ed ambienti operativi (J2EE, Code di messaggi, Web Services).
Principali Caratteristiche
•Raccolta, trasformazione, bonifica e caricamento dei dati anche “multi sorgente” per realizzare Data Warehouse, Data Mart, o Business Intelligence e Analytic data store di successo.
•Gestione completa dei meta-dati, dall’inizio alla fine del flusso dati e nel passaggio attraverso le diverse strutture informative
•Trasformazioni che possono essere eseguite su qualsiasi piattaforma senza limiti inerenti alle sorgenti e ai volumi di dati da processare.
•Oltre 300 trasformazioni predefinite a livello di colonne e tabelle.
•Template per Transformation Generator wizard e Java plug-in design per creare, in modo semplice ed intuitivo, trasformazioni riutilizzabili e ripetibili che vengono poi tracciate e registrate all’interno dei meta-dati.
•Processi di trasformazione invocabili attraverso programmi custom già esistenti, code di messaggi e Web Services.
•Trasformazioni eseguibili sia in modalità batch per ingenti volumi di dati, sia in tempo reale per soddisfare l’emergente necessità di integrazione ed arricchimento dinamico di qualsiasi infrastruttura presente in azienda.
[Veccari Ilaria ]
Per sfruttare appieno l’investimento, però, questi strumenti non devono essere considerati solo come il “programma per caricare il DataWarehouse”, ma come lo strumento tramite cui far passare le grandi movimentazioni di informazioni sempre più presenti all’interno delle aziende. In questo modo si potranno sfruttare appieno ad esempio le caratteristiche di documentazione, rendendo molto più trasparente l’interoperabilità tra i diversi sistemi aziendali. In tale ottica l’ETL non è più solo un software che velocizza il lavoro dell’ufficio IT, ma diventa parte integrante della Business Intelligence aziendale e permette di rendere esplicito molto know-how spesso isolato all’interno di poche persone, conoscenza questa difficilmente documentabile e tramandabile senza degli strumenti adeguati a causa del suo evolversi spesso frammentato e sedimentato negli anni.
In tale ottica l’ETL non deve quindi essere interpretato come l’ennesima licenza software da acquistare, ma come uno strumento che se correttamente interpretato può portare un vero cambiamento all’interno dell’azienda, specie per le realtà dove siano presenti molti sistemi eterogenei, o dove le necessità di interoperabilità dei sistemi costringano a numerosi e frequenti sistemi di allineamento delle informazioni per poter mantenere consistenza nei dati aziendali.[Simona Rauseo]
Si tratta quindi di strumenti specializzati e solitamente abbastanza costosi (IBM - Datastage, Oracle - ODI, ...), in alcuni casi sono però forniti con il tool di analisi e reporting (Business Object - Data Integrator), oppure fanno parte del DBMS (Microsoft SQL Server - DTS). Oggi esiste anche una proposta open source, si tratta di Pentaho Data Integration.
[Mariangela Vecchiarini ]
Alcuni esempi di ETL software:
•IBM InfoSphere DataStage: supporta la raccolta, l'integrazione e la trasformazione di volumi elevati di dati, con strutture di dati semplici e complesse. Questo strumento consente di integrare tutte le informazioni dell’azienda, provenienti da fonti diverse e con notevoli risparmi di tempo. IBM InfoSphere DataStage infatti, è in grado di gestire sia l'ingresso dei dati entro pochi secondi dall'acquisizione, sia quantità elevate di dati di sistema, in intervalli di elaborazione giornalieri, settimanali o mensili.
•SQL Server Integration Services: questa piattaforma consente di integrare e trasformare i dati a livello aziendale. Integration Services offre la possibilità di risolvere problemi aziendali complessi, tramite operazioni di copia o download di file, invio di messaggi di posta elettronica in risposta a determinati eventi, aggiornamento di data warehouse, pulizia dei dati e data mining e gestione di oggetti e dati di SQL Server. Tra le varie funzioni, Integration Services possiede una serie di strumenti grafici che consentono di creare soluzioni senza scrivere una sola riga di codice.
•Oracle Data Integration Suite: è una piattaforma per l'integrazione dati in grado di collegare applicazioni e sorgenti dati eterogenee fornendo informazioni precise, a tutti i livelli aziendali. I componenti di Oracle Data Integration Suite danno vita a un framework aperto e omogeneo per l'integrazione dati che abbraccia applicazioni eterogenee come IBM DB2, MySQL, Microsoft SQL Server, Oracle Database, ecc.
•Altri esempi di ETL software: SmartDB Workbench, DataStudio, Informatica, PowerCenter, Integrator, ecc.
[Daniele Germani]

