CloudSoftware

Che cos’è e a cosa serve un Data Lakehouse?

Quando sentiamo parlare di gestione dei dati, inizia a far capolino un leggero e fastidioso mal di testa. Il motivo è abbastanza semplice: per i non addetti ai lavori è un argomento noioso, per gli esperti è fonte continua di grattacapi. Eppure i dati sono ormai centrali per qualsiasi azienda. I dati servono per erogare servizi, per testare la soddisfazione dei clienti, per decidere le mosse future, per dare vita a smart home e smart factory.
I dati, nel 2022, sono definiti da molti “il nuovo petrolio”.
E questo significa che dobbiamo trovare il modo migliorare di usarli e conservarli.

Sia chiaro, non c’è un modo universalmente valido per approcciare questo compito. Non esiste un sistema che va bene per tutti, indistintamente. Anche perché la tecnologia evolve continuamente, dando vita a nuovi metodi e nuovi approccio. L’ultimo è il Data Lakehouse. Ma che cos’è esattamente?

Che cos’è un Data Lake?

Prima di arrivare al data lakehouse, facciamo un passo indietro.
E il passo indietro si chiama Data Lake.

Un data lake è un archivio (o repository) in cui vengono conservati grandi volumi di dati nel formato originale. Questi dati possono essere tabelle di database strutturati, file semistrutturati come le pagine Web, dati non strutturati come email, documenti e PDF oppure come immagini, file audio e video.
Un data lake, che può essere sia sul cloud che on-premises (nel datacenter del cliente), ha il vantaggio di non sacrificare la fedeltà e di offrire coerenza dei dati di base in un’ampia gamma di applicazioni, ad esempio l’elaborazione di Big Data, le query SQL, il data mining del testo, l’analisi di streaming e il Machine Learning.

data lake che cosa è

Confusi? Vi facciamo qualche esempio pratico.
Pensate allo streaming video. In questo caso i data lake aiutano a raccogliere ed elaborare informazioni sugli abbonati. Questo, anche se il provider ha adottato nel tempo piattaforme diverse che raccoglievano informazioni diverse tra di loro. In questo modo, il colosso di turno ha modo di suggerirvi i contenuti più adatti a voi basandosi su tutto ciò che avete visto in passato e non solo attraverso l’ultima generazione di piattaforma adottata.
Anche gli ospedali possono beneficiare di questa tecnologia visto che usano grandi quantità di dati raccolti con una profondità storica di anni. Questi dati, per forza di cose, vengono raccolti da macchinari che attraversano svariate generazioni tecnologiche e di produttori diversi. In questo caso, un data lake permette di semplificare i percorsi dei pazienti, con risultati migliori e costi minori.
In passato, saremmo stati costretti a uniformate i dati raccolti per usare un database tradizionale, ma questo ci espone al rischio di perdere informazioni potenzialmente preziose,
Oggi, invece, si preferisce sfruttare un data lake per acquisire e consolidare i dati provenienti da più fonti eterogenee.

Date Lake vs Data Warehouse

Sì ma io i dati li tengo in un data warehouse“.

Beh, non è sbagliato.
In fondo sia i data lake che i data warehouse servono ad archiviare ed elaborare dati. I due sistemi però non si escludono a vicenda, anche perché ci sono situazioni in cui uno risulta più comodo dell’altro.

Un data lake, come abbiamo già detto, archivia ogni tipo di dato, nel formato originale e questo lo rende perfetto per forme complesse di analisi dei dati.
Un data warehouse invece ha una struttura relazionale, organizzata in tabelle statiche, che va incontro alle esigenze dell’azienda e che risulta ottimizzata per operazioni di ricerca, ad esempio tramite query SQL.
Semplificando ancora: un data lake contiene tutto, senza mettere mano al dato originale, mentre un data warehouse ospita dati che sono già stati trattati e trasformati.
Un data lake si adatta quindi al machine learning, all’analisi predittiva e a quella in tempo reale mentre un data warehouse è utilissimo per la creazione di report e per la business intelligence.

L’ultima fondamentale differenza è la scalabilità, con un data lake facile da estendere spendendo relativamente poco e un data warehouse che invece è più difficoltoso da espandere, con prezzi significativamente più impegnativi.

Ma quindi… un Data Lakehouse che cos’è?

Data Lakehouse Differenze Data Lake E Warehouse

Un Data Lakehouse nasce per offrire il meglio dei due mondi.

Un data lake classico infatti può avere problemi di posizionamento e danneggiamento dei dati e in più, se mal gestito, può rallentare il lavoro e mettere a rischio la sicurezza delle informazioni e della vostra azienda.
La soluzione è il data lakehouse, con un’archiviazione aperta basata su standard, di natura multiforme.

Un data lakehouse permette di svolgere sia i compiti tipici di un data lake che quelli di un data warehouse, senza aver bisogno di strutturare o duplicare i dati. In questo modo tutti gli utenti accedono alle informazioni di cui hanno bisogno sapendo che sono aggiornate in tempo reale.
Inoltre, potete contare su un’architettura analitica flessibile in grado di gestire transazioni ACID (atomicità, coerenza, isolamento e durabilità). Questo tipo di transazione garantiscono l’affidabilità dei dati, l’integrazione dei flussi di dati e funzionalità avanzate come il controllo delle versioni dei dati e l’applicazione dello schema relazionale.

Naturalmente non è una soluzione adatta a chiunque. È necessario valutare i singoli casi ma per molte organizzazioni aziendale è un ottimo metodo di gestire i dati.

Il data lakehouse di Cloudera

Cloudera CDP One

A dimostrazione del fatto che i data lakehouse sono il futuro troviamo la nuova Cloudera Data Platform (CDP) One, un datalake SaaS che promette di facilitare e velocizzare l’analisi e l’utilizzo di qualsiasi tipo di dato.

A caratterizzare questa soluzione troviamo sistemi di sicurezza di livello enterprise, il machine learning e la possibilità di migrare agilmente il proprio carico di lavoro sul cloud, appoggiandosi ad un’architettura moderna.
CDP One, inoltre, adotta un approccio che Cloudera chiama Zero Ops, il che significa che tutte quelle operazioni chiamate DevOps, MLOps e SecOps vengono svolte in autonomia, aiutandovi a risparmiare tempo e risorse.

Consentire a tutti coloro che fanno parte di un’azienda di ottenere le informazioni di cui hanno bisogno in tempo reale per prendere le decisioni giuste richiede la creazione di un’architettura dati moderna sul cloud – ha affermato Ram Venkatesh, Chief Technology Officer di Cloudera. – Molte aziende non hanno le risorse, il tempo o le competenze per realizzare questa trasformazione. L’ultima innovazione di Cloudera, CDP One, si unisce alla nostra famiglia di servizi di dati cloud CDP per modificare completamente l’equazione, riducendo mesi o addirittura anni dalle tempistiche di implementazione e fornendo una sicurezza dei dati completa”.

Da non perdere questa settimana su Techbusiness

✒️ La nostra imperdibile newsletter Caffellattech! Iscriviti qui 
 
🎧 Ma lo sai che anche Fjona ha la sua newsletter?! Iscriviti a SuggeriPODCAST!
 
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
 
💌 Risolviamo i tuoi problemi di cuore con B1NARY
 
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
 
💸E trovi un po' di offerte interessanti su Telegram!

Erika Gherardi

Amante del cinema, drogata di serie TV, geek fino al midollo e videogiocatrice nell'anima. Inspiegabilmente laureata in Scienze e tecniche psicologiche e studentessa alla magistrale di Psicologia Clinica, dello Sviluppo e Neuropsicologia.

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button