NewsScenario

Amazon: la sfida dei Big Data si risolve con il data lake

Da un garage  dove Jeff Bezos preparava i primi ordini, ad avere 175 centri sparsi nel mondo dove sono impiegati 250mila addetti, di tempo ne è passato. Da allora Amazon si è dovuta confrontare con i big data che la sua attività comporta. Nel 2019, l’azienda ha deciso di costruire un data lake in grado di supportare una delle più grandi reti logistiche del pianeta che in seguito sarebbe diventato noto come il Galaxy data lake, ed ora tutti i vari team stanno lavorando per trasferirvi i loro dati.

Un data lake è un repository sicuro e centralizzato che permette di memorizzare, governare, scoprire e condividere tutti i dati strutturati e non strutturati su qualsiasi scala. I data lake non richiedono uno schema predefinito, quindi è possibile elaborare i dati grezzi senza dover sapere quali intuizioni si vuole esplorare in futuro.

data lakeLe sfide che Amazon ha affrontato con i big data sono simili a quelle che molte altre aziende devono affrontare: silos di dati, difficoltà nell’analisi di diversi set di dati, controllo dei dati, sicurezza dei dati e incorporazione dell’apprendimento automatico (Machine Learning). Diamo un’occhiata più da vicino a queste sfide e vediamo come un data lake può aiutare a risolverle.

Data lake al posto dei data silos

Scegliere di creare un data lake è un esigenza che nasce dal fatto di eliminare i  silos di dati. Avere dati in luoghi diversi, controllati da gruppi diversi, rende decisamente più difficile la condivisione e l’utilizzo di questi dati. Questo accade normalmente quando un’azienda cresce rapidamente e/o acquisisce nuovi business. Nel caso di Amazon, sono successe entrambe le cose.

data lakePer espandersi a livello internazionale e creare rapidamente nuovi programmi di spedizione (ad esempio, FREE Same-Day Delivery o Amazon Fresh), la maggior parte dei team di pianificazione delle operazioni ha avuto il controllo dei propri dati e della propria tecnologia. Di conseguenza, i dati sono stati memorizzati in luoghi e in modi diversi. Questo approccio ha consentito a ciascun team di affrontare i problemi, rispondere alle esigenze dei clienti e innovare più rapidamente.  In pratica un data lake risolve questo problema unendo tutti i dati in un’unica posizione centrale.

 Analisi di diversi set di dati

Un’altra sfida dell’utilizzo di sistemi e approcci diversi alla gestione dei dati è che le strutture dei dati e le informazioni variano. Ad esempio, Amazon Prime dispone di dati per i centri logistici e le merci confezionate, mentre Amazon Fresh dispone di dati per i negozi di alimentari e dei diversi generi alimentari. Inoltre, anche i programmi di spedizione differiscono a livello internazionale; ad esempio, le scatole possono variare di dimensioni e forma da paese a paese. Non solo, c’è anche una quantità crescente di dati non strutturati provenienti da dispositivi legati all’Internet of Things (IoT) (come i sensori sulle macchine dei centri logistici).

Se si volesse combinare tutti questi dati in un data warehouse tradizionale senza un data lake, sarebbe necessario un enorme lavoro di preparazione dei dati e di esportazione, trasformazione e caricamento (ETL). I data lakes permettono di importare qualsiasi quantità di dati in qualsiasi formato – anche in tempo reale – perché non esiste uno schema predefinito. 

 Gestione semplificata nell’accesso ai dati

Molti database richiedono il supporto della gestione degli accessi per fare cose come cambiare i profili o reimpostare le password. Inoltre, per ogni database devono essere effettuati audit e controlli per garantire che nessuno abbia un accesso improprio.

Con un data lake, invece di gestire l’accesso per tutti i diversi luoghi in cui sono memorizzati i dati, ci si deve preoccupare solo di una serie di credenziali. I data lakes abilitano controlli che consentono agli utenti autorizzati di vedere, accedere, elaborare e/o modificare specifici asset e aiutano a garantire che gli utenti non autorizzati  possano compromettere la riservatezza e la sicurezza dei dati. Con un data lake, i dati sono memorizzati in un formato aperto che rende più facile lavorare con diversi servizi analitici.

 Date lake per l’apprendimento veloce delle macchine

Un data lake è una potente base per ML e AI (intelligenza artificiale), visto che prosperano su grandi e diversi set di dati. Il ML utilizza algoritmi statistici che imparano dai dati esistenti, un processo chiamato formazione, per prendere decisioni su nuovi dati, un processo chiamato inferenza. Durante l’addestramento, vengono identificati modelli e relazioni nei dati per costruire un modello che permetterà di prendere decisioni intelligenti basate su dati mai incontrati prima. Più dati si hanno a disposizione migliore sarà l’addestramento dei modelli ML, con conseguente miglioramento della precisione.

 Galaxy arriva su AWS

L’attività di vendita al dettaglio di Amazon utilizza alcune tecnologie precedenti alla creazione di Amazon Web Services (AWS), iniziata nel 2006. Per diventare più scalabili, efficienti, performanti e sicuri, molti carichi di lavoro nel settore retail di Amazon sono passati ad AWS nell’ultimo decennio.

Il Galaxy data lake, che è una componente di una più grande piattaforma di grandi dimensioni conosciuta internamente come Galaxy, è costruito su Amazon Simple Storage Service (Amazon S3), un servizio di archiviazione di oggetti che offre disponibilità, durata e scalabilità. Nei vari set di dati di Amazon S3 vengono utilizzati AWS Glue, un servizio ETL completamente gestito che facilita la preparazione e il caricamento dei dati per l’analisi, e AWS Database Migration Service (AWS DMS.

 Formazione del data lake AWS

Il team di Amazon ha creato da zero l’architettura del Galaxy data lake che ha richiesto lo sviluppo manuale di molti dei componenti nel corso di mesi, il che è simile a come altre aziende hanno dovuto farlo in passato. Nell’agosto 2019, AWS ha rilasciato un nuovo servizio chiamato AWS Lake Formation che consente di snellire il processo di creazione di un data lake e di costruire un luogo di dati sicuro in giorni invece che in mesi.

Danilo Loda

100% "milanes", da una vita scrivo di bit e byte e di quanto inizia con on e finisce con off. MI piace tutto quello che fa rumore, meglio se con un motore a scoppio. Amo viaggiare (senza google Maps) lo sport, soprattutto se è colorato di neroazzuro.

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button