In un mondo data driven, le aziende hanno bisogno di dati per comprendere cosa succede all’interno e all’esterno della loro realtà, prendere decisioni informate, migliorare la propria operatività e la propria presenza sul mercato.
I dati rappresentano il carburante necessario per il motore di un’innovazione sempre più strettamente connessa ai percorsi di digitalizzazione.
Ma avere i dati non è sufficiente.
Ciò che conta è la loro qualità e la capacità di saperli usare e di trarne valore, a maggior ragione in un contesto, qual è quello attuale, in cui i dati provengono da una disparità di fonti diversi e una grande eterogeneità di formati.
Il primo passo che una realtà data-driven deve dunque compiere è renderli effettivamente utilizzabili per tutte le attività di business intelligence.
Ed è qui che entra in gioco ETL, un processo in tre fasi (estrazione, trasformazione e caricamento) che consente di rendere i dati effettivamente disponibili per le attività di analisi ed elaborazione.
L’ETL, letteralmente Extract, Transform, Load, ovvero estrazione, trasformazione e caricamento, è un vero e proprio processo di integrazione dei dati, che di fatto consolida i dati provenienti da diversi sistemi di origine in un data warehouse, in un data lake o in un altro sistema di destinazione con lo scopo di migliorare l’accesso ai dati.
Una pipeline ETL raccoglie i dati da uno più sistemi o database di origine, converte i dati estratti in un unico formato o struttura e e li trasferisce nel database di destinazione o in un archivio centralizzato.
In sintesi, la pipeline ETL rende i dati pronti per gli analisti e i decisori, facendo risparmiare tempo agli sviluppatori e riducendo gli errori connessi all’elaborazione manuale dei dataset.
È un processo chiave per le aziende data-driven, che possono dunque
Come già accennato, una pipeline ETL è composta da tre fasi:
Vediamole in dettaglio.
In questa prima fase, i dati vengono raccolti da diversi database o fonti.
Gli strumenti ETL estrae o copia i dati grezzi da più fonti e li archivia in un’area di staging, vale a dire un’area di archiviazione intermedia per la conservazione temporanea dei dati.
La fase di estrazione può avvenire in modalità diverse:
Poiché i dati vengono raccolti da più fonti, possono essere in vari formati, compresi dati semi-strutturati e non strutturati. In questa fase, i dati estratti vengono convertiti o strutturati nella forma corretta desiderata. Questa fase è fondamentale per inserire i dati raccolti nel database di destinazione.
Questa fase prevede una serie di azioni sui set di dati.
In questa fase, i dati ora strutturati vengono spostati dall’area di staging e caricati nel database di destinazione o nel data warehouse. Si tratta di un processo ben definito che può essere tuttavia svolto secondo modalità differenti.
Come abbiamo già accennato, la pipeline ETL standardizza e automatizza l’intero processo di raccolta dei dati grezzi da più fonti di dati, come CRM, ERP, piattaforme di social media e così via, in diversi formati, tra cui CSV, JSON, XML e file di testo.
Ma vediamo in dettaglio quali sono le finalità per le quali questo processo è importante.
Va detto che le pratiche ETL, nate in un momento diverso della storia dell’informatica aziendale, hanno subito cambiamenti significativi nel corso degli anni e a maggior ragione con la crescita dell’adozione del cloud.
Se l’ETL tradizionale partiva da processi manuali, sostituiti nel tempo da una sempre maggiore automazione, l’avvento del cloud computing ha avuto un impatto significativo sulle pratiche di ETL, consentendo alle organizzazioni di eseguire la pipeline in modo più scalabile ed economico.
L’ETL in cloud consente alle organizzazioni di archiviare ed elaborare grandi volumi di dati in cloud, senza la necessità di hardware o software on-premise, aumentando o diminuendo rapidamente le risorse in base alle proprie esigenze e mantenendo quei livelli di sicurezza e conformità necessarie per soddisfare i requisiti normativi.
E con la crescente diffusione del cloud, si tende a pensare alla virtualizzazione e all’ETL come se fossero la stessa cosa.
Entrambe consentono di accedere, integrare e distribuire i dati, ma si applicano a scenari d’uso differenti. ETL è utile per progetti di consolidamento dei dati fisici che comportano la duplicazione dei dati dalle fonti di dati originali in un data warehouse o in un nuovo database. È consigliata per applicazioni che eseguono data mining o analisi storiche a supporto della pianificazione strategica a lungo termine, ma lo è meno per applicazioni a supporto delle decisioni operative, che richiedono maggiore tempestività.
La virtualizzazione dei dati, invece, astrae, federa e pubblica un’ampia varietà di fonti di dati. L’applicazione interroga i dati pertinenti, esegue i join e le trasformazioni necessarie e fornisce i risultati agli utenti, senza che questi ultimi siano a conoscenza della reale ubicazione dei dati o dei meccanismi necessari per accedervi e unirli.
In questo processo di trasformazione dell’ETL, sempre guidato dalla diffusione dei data warehouse cloud di nuova generazione, si comincia a parlare di una nuova declinazione dell’ETL: ELT, Extract, Load, Transform).
Come si intuisce dall’acronimo, con ELT si definisce un processo di integrazione dei dati che parte dal trasferimento dei dati grezzi da un server di origine a un data warehouse o un data lake verso un server di destinazione e di preparare successivamente le informazioni per il loro utilizzo.
In questo caso, la pipeline parte dall’estrazione dei dati da uno o più sistemi sorgenti.
Nella seconda fase i dati estratti vengono caricati nel database di destinazione.
Infine, i dati vengono trasformati, ovvero convertiti dal formato di origine al formato richiesto per l’analisi.
Non è semplice dire quale dei due approcci sia preferibile.
Sostanzialmente, con ETL i dati grezzi non sono disponibili nel data warehouse perché vengono trasformati prima di essere caricati, mentre con ELT, i dati grezzi vengono caricati nel data warehouse e le trasformazioni avvengono sui dati memorizzati.
Generalmente, si considera ELT è più utile per l’elaborazione di grandi insiemi di dati necessari per la business intelligence (BI) e l’analisi dei big data.
ETL viene considerato un approccio preferibile all’ELT quando è necessaria un’ampia pulizia dei dati prima di caricarli sul sistema di destinazione, quando sono necessari numerosi calcoli complessi su dati numerici e quando tutti i dati di origine provengono da sistemi relazionali.
In fase di valutazione dell’ETL che meglio si adatta alla propria organizzazione, ci sono una serie di fattori da prendere in considerazione.
Si parte naturalmente dalle funzionalità e caratteristiche, con un occhio di riguardo alla possibilità di connettere dati da fonti diverse, al supporto di vari formati di dati e le capacità di trasformazione dei dati stessi. Serve capite quali caratteristiche la soluzione offre in termini di profilazione e convalida dei dati e di capacità di gestire flussi di lavoro complessi.
La scalabilità è un altro elemento discriminante: lo strumento deve supportare grandi insiemi di dati e deve poter gestire volumi di dati crescenti, fornire soluzioni di elaborazione parallela e di ottimizzazione del caricamento dei dati.
Analogamente, la facilità d’uso non è da trascurare, così come è necessario assicurarsi che lo strumento si integri con l’infrastruttura, i database, le piattaforme cloud e gli strumenti di analisi esistenti. La compatibilità con un’ampia gamma di fonti di dati è essenziale per un consolidamento completo dei dati.
Da ultimo arrivano le considerazioni su costi e licenze, così come sulla capacità del partner che assiste l’azienda nella valutazione e implementazione di offrire supporto e assistenza in tutto il processo.
• Etica – Crediamo nell’approccio multicloud e nella cultura del dato.
• Innovazione – Lavoriamo con i vendor alla creazione di nuovi servizi utili al mercato.
• Made in Italy – I data center sono su territorio italiano, l’ideale in termini di compliance e responsabilità.
SEDI
Sede Legale: Viale Fulvio Testi 280/6– 20126 Milano
Sede Amministrativa: Via di Spini, 50 – 38121 Trento | T: 0461 997111 | F: 0461 997110
Sedi Operative: Tutte le sedi Deda in Italia sono sedi di Deda Cloud
CONTATTI
Ragione sociale – Deda Cloud srl – a socio unico
Tel. +39 0461 997111
PEC – deda.cloud@legalmail.it
Mail – info@dedagroup.it
DPO – dpo@dedagroup.it
P.IVA, C.F. e R.I.: 11333750963 | Cap. Sociale: euro 16.521.295,00 i.v.