Google Gemini è stato annunciato pochi giorni fa. Si tratta del nuovo e potenziato sistema di intelligenza artificiale del colosso di Mountain View. Quindi, con un’attesa relativamente breve, Gemini entra a far parte in maniera organica dell’ecosistema dei servizi di Google e viene messo a disposizione di sviluppatori e aziende per alimentare il loro business. Le ricadute di questo importante passo sono molteplici, anche perché Gemini va a inserirsi all’interno di una piattaforma estremamente complessa e pervasiva. L’obiettivo finale, però, pare esse molto chiaro: renderlo disponibile come strumento con il quale costruire una nuova generazione di servizi basati sull’intelligenza artificiale.
Cos’è Google Gemini
Gemini, detto in maniera molto sintetica, è un motore di intelligenza artificiale in grado di interpretare e produrre contenuti. Si tratta del terzo stadio evolutivo dell’AI di Google dopo LaMDA e PaLM 2. Per ora i contenuti trattati da Gemini sono principalmente testuali, ma è stato progettato come un’intelligenza artificiale multimodale; per, in futuro, tratterà anche altri tipi di informazioni come immagini, audio e video.
Dal punto di vista tecnologico, Gemini rappresenta un grosso passo avanti in quanto è il primo modello linguistico in grado di battere un essere umano nel benchmark MMLU (Massive Multitask Language Understanding). MMLU è uno dei metodi più popolari per valutare la capacità di una AI nel risolvere problemi.
Google Gemini, tuttavia, bisogna paragonarlo al motore di un automobile. Un motore di ultima generazione ha tutto quello che serve per farci andare in autostrada a 200 chilometri all’ora, ma da solo non può farlo. C’è bisogno di collocarlo nella struttura di un’automobile. E un’automobile, si sa, non ha solo il compito di andare veloce, ma deve anche essere sicura, affidabile, comoda, protetta dai furti più avere un sacco di altre qualità che oggi diamo per scontate.
Allo stesso modo, Google Gemini va visto come il nuovo motore dell’ecosistema dei servizi di Google. Perché è solo costruendoci attorno una piattaforma che potremo usarlo sul serio. Per cui, il prossimo passo per Google, dopo aver validato il modello linguistico, doveva proprio essere quello di integrarlo nei servizi esistenti e permettere a chi fa applicazioni di sfruttarlo.
Le novità dell’annuncio di Google
Oggi, Gemini è già il propulsore a Bard e tutti possiamo usarlo online. È possibile chiedere cnferma a Bard stesso. Renderlo disponibile per un uso funzionale al business e aprire Gemini alle aziende, però, è una cosa diversa. Ed è proprio qui il nocciolo dell’ultimo annuncio di Google. Da oggi, Gemini inizia un percorso di integrazione e vengono anche rese disponibili le interfacce di programmazione (API) per poterlo utilizzare nelle soluzioni di terze parti.
Queste novità hanno quindi delle implicazioni importanti. Innanzitutto, Google Gemini diventa uno strumento in mano ad aziende e sviluppatori. Come seconda cosa, le piattaforme a disposizione per lo sviluppo sono state ampliate per permettere di sfruttare a pieno il nuovo sistema. Ultimo, ma non per importanza, sono ora disponibili una serie di funzionalità aggiuntive grazie al supporto di Google Gemini.
Strumenti per gli sviluppatori
Per chi si occupa di sviluppare applicazioni di intelligenza artificiale, l’intefaccia API di Gemini (nalla versione Pro) è già disponibile tramite AI Studio. AI Studio, per chi non lo sapesse, è uno strumento online gratuito di Google che, attraverso un sistema di composizione visuale, consente di creare applicazioni di intelligenza artificiale senza richiedere forti competenze di programmazione.
AI Studio può essere usato da un qualunque profilo Google. L’accesso alle funzionalità di Gemini è possibile anche in forma gratuita, anche se in tal caso si è limitati a 60 richieste al minuto. Comunque, più che sufficienti per un periodo di addestramento. Una volta raggiunto un risultato soddisfacente, è possibile esportare il progetto come codice per un ambiente di sviluppo più classico. L’unico aspetto, per certi versi, negativo è che quando si usa per la versione gratuita, le informazioni in ingresso e uscita potrebbero essere visionate anche da analisti di Google. Con la modalità a pagamento, da quello che sappiamo, questo non succede.
Strumenti per le aziende
Una volta terminata la fase di sviluppo di un servizio di intelligenza artificiale occorre addestrare il modello in base alle nostre necessità. Tornando alla metafora del motore, abbiamo costruito un telaio ma dobbiamo anche fare la taratura della struttura, perché sarebbe stupido avere la propulsione di una Formula 1 se quello che ci serve è arare un campo (e viceversa). Attorno a Gemini c’è il software che ci serve, ma dobbiamo anche insegargli a ragionare nella maniera corretta per supportare il nostro specifico modello di business o per rispondere a domande sui nostri prodotti.
I progetti che usano Gemini e che devono andare in produzione vengono gestiti dalle aziende tramite uno strumento chiamato Vertex AI. Con Vertex AI si procede all’addestramento del modello con dati che rimangono interni all’azienda e in un secondo momento procedere alla messa in produzione su Google Cloud.
Attualmente, non esiste una versione gratuita di Gemini per le applicazioni in produzione. Tuttavia, i preziario reso pubblico con l’annuncio pare essere competitivo. La tariffazione viene fatta sulla base dei dati scambiati. Verso Gemini, si parla di 0.00025 dollari ogni 1024 caratteri e 0.0025 dollari ogni immagine. Per i dati che vengono generati da Gemini si parla invece di 0.0005 dollari ogni 1024 caratteri. Facendo due conti, con un euro può essere possibile richiedere la creazione di poco più di 2 MB di testo. Per confronto, i Promessi Sposi in forma puramente testuale occupano circa 1,2 MB.
Nuovi modelli verticali
All’interno di Vertex AI, Google mette a disposizione anche due modelli di intelligenza artificiale già pronti che possono essere integrati nelle nostre applicazioni aziendali. Si tratta della seconda versione di Imagen e di MedML.
Imagen 2 è la seconda iterazione di una AI per la creazione di immagini. Rispetto alla versione precedente vede un miglioramento della qualità delle immagini e ora può produrre loghi in un’ampia varietà di stili.
MedML non è un vero e proprio modello, ma si tratta di una collezione di modelli che operano in campo medico e che possono essere tarati sulle specifiche necessità dell’applicazione. MedML non è ancora disponibile ma lo diventerà nelle prossime settimane. Inoltre, Google ha già annunciato che nuovi modelli saranno aggiunti alla collezione in un prossimo futuro.
Assistenti basati su Google Gemini
Parlando di modelli verticali, non possiamo non menzionare che grazie a Google Gemini, sono ora disponibili anche due assistenti basati su AI. Chi sviluppa codice può usare Duet AI for Developers mentre, per chi si occupa di sicurezza, c’è Duet AI for Security Operations. Entrambi, ovviamente, offrono suggerimenti all’operatore umano. Nel primo caso si tratta di una applicazione o un plugin per un ambiente di sviluppo che ci aiuta a scrivere, tradurre e ottimizzare il codice. Nel secondo siamo di fronte a un agente all’interno di una piattaforma si SecOps per dare assistenza agli analisti.
Alla scoperta di Google Gemini
Aziende e professionisti che vogliono entrare in contatto con questa tecnologia possono, già da oggi, esplorare le piattaforme di AI Studio e Vertex AI. Google Gemini è un sistema in continua crescita, a tutti gli interessati consigliamo di tenere monitorate le news sul sito di Google DeepMind.