Cloudera Data Platform: un approccio...

Negli ultimi dieci anni, il successo dell’implementazione di piattaforme dati su larga scala presso i clienti ha agito come un moltiplicatore, spingendo la domanda a introdurre ancora più dati, ad applicare analisi più sofisticate e ad assumere molti nuovi professionisti dei dati, dagli analisti aziendali ai data scientist. Questo livello senza precedenti di carichi di lavoro sui dati però, non è privo di sfide. Il livello dell’architettura dei dati è una di queste aree in cui i dataset in crescita hanno superato i limiti della scalabilità e delle prestazioni. Per questo, Cloudera ha deciso di integrare il formato Iceberg all’interno della propria Cloudera Data Platform.

I diversi elementi di Cloudera Data Platform

Cloudera è stata fondamentale per l’espansione dello standard di settore Apache Iceberg, un formato ad alte prestazioni per enormi tabelle analitiche. Chi ha familiarità con il tradizionale linguaggio di interrogazione strutturato (SQL) riconoscerà immediatamente il formato delle tabelle Iceberg, che consente a più applicazioni come Hive, Impala, Spark, Trino, Flink e Presto di lavorare contemporaneamente sugli stessi dati. Inoltre, tiene traccia dello stato di evoluzione del set di dati e di altri cambiamenti nel tempo. Iceberg è un elemento centrale della Cloudera Data Platform (CDP), e consente agli utenti di costruire un’architettura di data lakehouse aperta per fornire analisi multifunzionali su grandi insiemi di dati sia in streaming che archiviati.

Il tutto in un object store cloud-native che funziona sia on-premise che su più cloud. Ottimizzando i vari servizi dati CDP, tra cui Cloudera Data Warehousing (CDW), Cloudera Data Engineering (CDE) e Cloudera Machine Learning (CML), gli utenti possono definire e manipolare i dataset con comandi SQL. Gli utenti possono anche costruire pipeline di dati complesse utilizzando funzioni come le time travel. Possono inoltre distribuire modelli di machine learning (ML) realizzati a partire dai dati contenuti nelle tabelle di Iceberg. Grazie al contributo alla comunità open-source, Cloudera ha esteso il supporto a Hive e Impala, realizzando un’architettura di dati per l’analisi multifunzione in grado di gestire carichi di lavoro di ingegneria dei dati su larga scala, BI, query veloci e ML.

Cloudera ha integrato Iceberg nel layer Shared Data Experience (SDX) di CDP. In questo modo ha reso più rapidi i vantaggi di produttività e prestazioni del formato aperto delle tabelle. Inoltre, l’integrazione nativa di Iceberg beneficia di varie funzionalità di livello enterprise di SDX, come le funzionalità di data lineage, audit e sicurezza. Cloudera assicura che le organizzazioni possono costruire un lakehouse aperto ovunque, su qualsiasi cloud pubblico o on-premise. Inoltre, l’approccio open garantisce la libertà di scegliere lo strumento di analisi preferito senza alcun lock-in.

Apache Ranger e Apache Atlas

Apache Ranger è un framework software che abilita, monitora e gestisce la sicurezza completa dei dati nella piattaforma CDP. È lo strumento per la creazione e la gestione dei criteri di accesso ai dati e ai servizi dello stack CDP. Gli amministratori della sicurezza possono definire politiche di sicurezza a livello di database, tabelle, colonne e file e amministrare le autorizzazioni per gruppi o individui specifici. Ranger gestisce l’intero processo di autenticazione degli utenti e i diritti di accesso alle risorse di dati. Ad esempio, un particolare utente potrebbe essere autorizzato a creare una policy e a visualizzare i report, ma non a modificare utenti e gruppi.

Apache Atlas è un sistema di gestione e governance dei metadati utilizzato per aiutare a trovare, organizzare e gestire le risorse di dati. Creando rappresentazioni di metadati di oggetti e operazioni all’interno del data lake, Atlas consente agli utenti di capire perché i modelli producono risultati specifici, risalendo fino all’origine dei dati di partenza. Utilizzando i metadati raccolti, Atlas crea relazioni tra le risorse di dati. Quando Atlas riceve informazioni sulle query, annota l’input e l’output della query e genera una mappa del percorso che traccia l’utilizzo e la trasformazione dei dati nel tempo. Questa visualizzazione delle trasformazioni dei dati consente ai team di governance di identificare rapidamente una fonte di dati e di comprendere l’impatto delle modifiche ai dati e allo schema.

Apache Ozone è la risposta open source per uno storage on-premise ad alta densità

La separazione delle risorse di calcolo e di dati nel cloud offre molti vantaggi a un’implementazione di Cloudera Data Platform. Presenta più opzioni per l’allocazione delle risorse di calcolo e di archiviazione e consente di spegnere i cluster di server per evitare spese di calcolo non necessarie, lasciando i dati a disposizione di altre applicazioni. Inoltre, i carichi di lavoro ad alta intensità di risorse possono essere isolati su cluster di calcolo dedicati, separati per i diversi carichi di lavoro. Affinché questi vantaggi siano coerenti ovunque, anche in sede, CDP Private Cloud, la versione on-premises di CDP, utilizza Apache Ozone per separare lo storage dall’elaborazione. Apache Ozone è un object store on-premises distribuito, scalabile e ad alte prestazioni che supporta lo stesso modello di interazione di AWS S3, Microsoft Azure Data Lake Storage (ADLS) o Google Cloud Storage (GCS).

Cloud Essentials: Un viaggio nel Cloud Computing

Mittica, Gabriele (Autore) - Nash, Phil, Peters, Sven, Poccia, Danilo (Narratori)

Nozioni di base sul cloud computing: Panoramica sul cloud computing

Abdul Nabi, Shaik (Autore)

Rimani aggiornato seguendoci su Google News!

Da non perdere questa settimana su Techbusiness

🔝LinkedIn pubblica il report Top Companies Italia 2024: al primo posto Intesa Sanpaolo
🍪Il futuro della privacy online: Google dice addio ai cookie di terze parti
🪪Parliamo di SASE: intervista a Aldo Di Mattia di Fortinet
💡AMD e i data center energeticamente sostenibili. Intervista ad Alexander Troshin
✒️ La nostra imperdibile newsletter Caffellattech! Iscriviti qui
🎧 Ma lo sai che anche Fjona ha la sua newsletter?! Iscriviti a SuggeriPODCAST!
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
💌 Risolviamo i tuoi problemi di cuore con B1NARY
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
💸E trovi un po' di offerte interessanti su Telegram!

Cloudera Data Platform: un approccio open agli hybrid data per una piena portabilità sul cloud

Cloudera ha deciso di integrare il formato Iceberg all’interno della propria piattaforma

I diversi elementi di Cloudera Data Platform

Apache Ranger e Apache Atlas

Apache Ozone è la risposta open source per uno storage on-premise ad alta densità

Rimani aggiornato seguendoci su Google News!

Seguici!

Marzia Ramella

Lascia un commento Annulla risposta

Snowflake presenta un LLM aperto per il settore enterprise

Irene Rossetto è la nuova International Sales Director per Sud Europa e Middle East di OneStock

FUJIFILM annuncia serie Apeos: l’innovativa linea di stampanti multifunzione

Jeff Reed nominato Chief Product Officer di Vectra AI

Assoprovider si schiera contro le criticità della piattaforma antipirateria di AGCOM

I diversi elementi di Cloudera Data Platform

Apache Ranger e Apache Atlas

Apache Ozone è la risposta open source per uno storage on-premise ad alta densità

Rimani aggiornato seguendoci su Google News!

Seguici!

Marzia Ramella

Iscriviti alla newsletter

Meglio mail che tardi

Potenzialità e insidie dell'intelligenza artificiale in ambito Customer Experience

Diamanti sintetici per lo sviluppo di reti quantistiche: partnership tra AWS ed Element Six

Ti potrebbero interessare anche:

Come ottenere il codice univoco SDI: guida alla fatturazione elettronica

Asus aggiorna il BIOS della scheda madre per abilitare il supporto a Windows 11

Samsung DeX, ecco tutto quello che c’è da sapere

Le app di Microsoft 365 e Office sono ora compatibili nativamente con le CPU Apple M1

Lascia un commento Annulla risposta

Snowflake presenta un LLM aperto per il settore enterprise

Irene Rossetto è la nuova International Sales Director per Sud Europa e Middle East di OneStock

FUJIFILM annuncia serie Apeos: l’innovativa linea di stampanti multifunzione

Jeff Reed nominato Chief Product Officer di Vectra AI

Assoprovider si schiera contro le criticità della piattaforma antipirateria di AGCOM