Software

Ma noi la capiamo davvero l’Intelligenza Artificiale?

I Large Language Models – LLM – come GPT-4 compiono cose straordinarie, ma nessuno sa spiegare esattamente il perché. Fenomeni come il “grokking” e il “double descent” rivelano un vuoto teorico che potrebbe essere cruciale per controllare le AI del futuro.

Gli LLM riescono a far cose straordinarie ma non sappiamo perché

Il fenomeno del grokking negli LLM: perché avviene e perché fa far cose straordinarie?

Nel 2022, due ricercatori di OpenAI, Yuri Burda e Harri Edwards, hanno addestrato un modello a fare somme. Dopo giorni di tentativi falliti, lasciarono per sbaglio il training acceso. Al ritorno, scoprirono che il modello aveva imparato a sommare numeri mai visti, come se un interruttore si fosse attivato. Chiamarono questo comportamento grokking – un’improvvisa comprensione dopo un periodo di apparente stallo.

È inquietante“, dice Hattie Zhou, ricercatrice all’Università di Montreal. “Possiamo mai essere certi che un modello abbia smesso di apprendere? Forse non l’abbiamo addestrato abbastanza a lungo“. Il fenomeno sfida le nozioni tradizionali su come l’apprendimento automatico dovrebbe funzionare, dove i progressi sono graduali e prevedibili.

cmo-intelligenza-artificiale-marketing-AI-dati-2025

Il Double Descent e le cose straordinarie fatte dagli LLM, ma perché?

Secondo la statistica classica, i modelli con troppi parametri dovrebbero sovradattarsi – overfitting. Ma dal 2018, esperimenti mostrano il contrario: aumentando parametri, dati o tempo di training, le prestazioni peggiorano, poi migliorano di nuovo. Questo double descent – o in italiano Doppia Discesa – è stato osservato in modelli come GPT-4, dove performance crescono con la complessità, contro ogni aspettativa.

Mikhail Belkin, informatico all’Università della California, ipotizza un “effetto rasoio di Occam” inverso: modelli più grandi trovano pattern più semplici ed eleganti, scartando soluzioni complicate. “Ma quando GPT-4 impara 100 lingue, capiamo di non aver visto che la superficie“, ammette.

Il paradosso dei trasformatori

I trasformatori, architettura alla base di ChatGPT, funzionano come catene di Markov, ovvero prevedono la parola successiva in una sequenza. Ma le loro capacità vanno ben oltre: risolvono problemi matematici in francese dopo aver studiato letteratura inglese, un salto che la statistica non spiega. “È uno shock“, dice Belkin. “Probabilmente sfruttano pattern matematici nascosti nel linguaggio, ancora sconosciuti“.

Naviga in sicurezza con Nord VPN, Ottieni da questo link fino al 73% di Sconto

Boaz Barak, informatico ad Harvard in trasferta a OpenAI, paragona la situazione alla fisica del ‘900: “Abbiamo risultati sperimentali sorprendenti, senza una teoria unificata“. La mancanza di comprensione limita la capacità di prevedere rischi e potenzialità dei modelli futuri.

Il dibattito su questi misteriosi fenomeni

Alicia Curth, statistica all’Università di Cambridge, contesta l’interpretazione classica del double descent. Secondo il suo team, il fenomeno dipende da come si misura la complessità dei modelli: “Parametri aggiuntivi a volte semplificano, non complicano. Usarli come metro è fuorviante“.

Altri, come Lauro Langosco, vedono grokking e double descent come facce della stessa medaglia. In uno studio presentato a NeurIPS 2023, il suo team ha mostrato come entrambi emergono da dinamiche di apprendimento non lineari. “Serve una teoria che li unifichi“, sostiene.

Cosa saprà fare GPT-5?

L’assenza di teorie solide rende imprevedibili gli sviluppi dell’AI. “Non sappiamo cosa saprà fare GPT-5 finché non lo addestriamo“, dice Langosco. Questo diventa critico con modelli sempre più potenti. Barak, nel team di “superallineamento” di OpenAI, avverte: “A cosa serve un’auto che va a 500 km/h ma che ha uno sterzo traballante?”.

La posta in gioco è alta. “L’intelligenza è uno dei grandi misteri del nostro tempo“, riflette Barak. Capirla potrebbe sbloccare nuove generazioni di AI o prevenirne i rischi. Ma oggi, come nel 2016 quando Chiyuan Zhang pubblicò “Capire il deep learning richiede ripensare la generalizzazione“, la sfida resta aperta. “Ogni risposta solleva nuove domande“, ammette Zhang.

Il vuoto teorico dell’Intelligenza Artificiale

I modelli linguistici sfidano le fondamenta della statistica, costringendo la scienza a cercare nuove leggi. Fenomeni come grokking e double descent non sono curiosità accademiche, ma segnali di un vuoto teorico che ostacola il controllo dell’AI. Mentre i colossi tech corrono verso modelli sempre più grandi, ricercatori come Belkin e Barak lavorano a una “teoria del tutto” per l’intelligenza artificiale. Senza di essa, rischiamo di navigare alla cieca nell’era delle macchine pensanti.

Echo Dot (Ultimo modello) | Altoparlante intelligente Wi-Fi e Bluetooth, suono più potente e dinamico, con Alexa | Anthracite
  • SUONO RICCO E AVVOLGENTE: goditi un’esperienza audio migliorata con voci più nitide e bassi più profondi per un’esperienza Echo Dot immersiva.
  • MUSICA E PODCAST: ascolta musica, audiolibri e podcast da Amazon Music, Audible, Apple Music, Spotify e molto altro, tramite wi-fi o Bluetooth.
  • FELICE DI AIUTARTI: chiedi ad Alexa le previsioni del tempo, di impostare dei timer, di rispondere alle tue domande o semplicemente raccontarti barzellette.
  • LA TUA CASA INTELLIGENTE, SEMPRE PIÙ SEMPLICE: controlla i dispositivi per Casa Intelligente compatibili con la tua voce o imposta routine per azioni basate sulla temperatura.
  • MIGLIORI INSIEME: sincronizza più dispositivi Echo compatibili o associa Fire TV per la massima esperienza visiva.
Source
Technology Review

Autore

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button