
Secondo un rapporto di The Information, OpenAI starebbe pianificando il lancio di una serie di agenti AI specializzati di tipo “PhD-Level“, tra cui un servizio da 20.000$ al mese progettato per supportare la ricerca. Ma cosa significa esattamente tutto ciò? Quali ripercussioni potrebbe avere su altri modelli di AI e che cosa potrebbe fornire in più?
OpenAI sta preparando un’AI “PHD-level”?
Il termine “AI PHD-Level” si riferisce a modelli in grado di svolgere compiti che richiederebbero l’esperienza di un dottorato di ricerca. Questi includono la conduzione di ricerche avanzate, la scrittura e il debug di codice complesso senza intervento umano, e l’analisi di grandi dataset per generare report dettagliati. L’idea è che questi modelli possano affrontare problemi che tipicamente richiedono anni di formazione accademica specializzata.
OpenAI basa queste affermazioni su test di benchmark specifici. Ad esempio, i modelli della serie o1 hanno ottenuto risultati paragonabili a quelli di studenti di dottorato in test di scienza, programmazione e matematica. Lo strumento Deep Research di OpenAI, che può generare articoli di ricerca con citazioni, ha raggiunto un punteggio del 26.6% su “Humanity’s Last Exam”, un test che copre oltre 3.000 domande in più di 100 discipline.

I modelli o3
I modelli o3 e o3-mini, annunciati a dicembre 2024, rappresentano l’ultimo passo avanti di OpenAI. Questi modelli utilizzano una tecnica chiamata “private chain of thought”, che simula il ragionamento umano: l’AI elabora un dialogo interno e lavora in modo iterativo sui problemi prima di fornire una risposta finale.
Secondo OpenAI, più tempo si dedica a questo processo di inferenza, migliori sono i risultati. Con un abbonamento da 20.000$ al mese, i clienti pagherebbero essenzialmente per un’enorme quantità di tempo di elaborazione dedicato a problemi complessi.
I modelli o3 hanno ottenuto risultati record in diversi benchmark. Ad esempio, hanno raggiunto l’87,5% nel test di ragionamento visivo ARC-AGI, superando la soglia dell’85% considerata paragonabile alle prestazioni umane. Hanno anche ottenuto il 96,7% nell’American Invitational Mathematics Exam 2024, sbagliando solo una domanda, e l’87,7% nel test GPQA Diamond, che include domande di biologia, fisica e chimica a livello di dottorato.
Benchmark vs Valore Reale
Le potenziali applicazioni di un’AI “PhD-Level” includono l’analisi di dati di ricerca medica, il supporto alla modellazione climatica e la gestione di aspetti routinari del lavoro di ricerca. Tuttavia, i prezzi elevati proposti da OpenAI sollevano dubbi sul rapporto costo-beneficio.
Secondo The Information, SoftBank, uno degli investitori di OpenAI, ha già stanziato 3 miliardi di dollari per i prodotti AI dell’azienda nel 2024, segnalando un forte interesse da parte delle aziende nonostante i costi. Tuttavia, OpenAI deve affrontare pressioni finanziarie: nel 2024 ha perso circa 5 miliardi di dollari per coprire i costi operativi.
Limiti e critiche dell’AI PhD-Level
Nonostante le prestazioni impressionanti nei benchmark, questi modelli di ragionamento simulato hanno ancora problemi di confabulazione, ovvero la generazione di informazioni plausibili ma inaccurate. Questo rimane un punto critico per applicazioni di ricerca dove accuratezza e affidabilità sono essenziali.
Inoltre, in molti hanno fatto un’osservazione importante: con un budget di 20 mila dollari al mese, ovvero il costo previsto per questo modelli di OpenAI, non sarebbe più conveniente per le aziende assumere un vero assegnista di ricerca? Anche perché non è scontato che un’AI possa risultare migliore di tali individui, anzi, quasi sempre è vero il contrario.
Una trovata di marketing oppure una vera rivoluzione?
Il termine “PhD-Level” rimane in gran parte un’etichetta di marketing. Questi modelli possono elaborare e sintetizzare informazioni a velocità impressionanti, ma è ancora da vedere quanto possano gestire il pensiero creativo, lo scetticismo intellettuale e la ricerca originale che caratterizzano il lavoro di dottorato. D’altra parte, l’AI non si stanca mai, non ha bisogno di assicurazione sanitaria e probabilmente continuerà a migliorare nel tempo.
- SUONO RICCO E AVVOLGENTE: goditi un’esperienza audio migliorata con voci più nitide e bassi più profondi per un’esperienza Echo Dot immersiva.
- MUSICA E PODCAST: ascolta musica, audiolibri e podcast da Amazon Music, Audible, Apple Music, Spotify e molto altro, tramite wi-fi o Bluetooth.
- FELICE DI AIUTARTI: chiedi ad Alexa le previsioni del tempo, di impostare dei timer, di rispondere alle tue domande o semplicemente raccontarti barzellette.
- LA TUA CASA INTELLIGENTE, SEMPRE PIÙ SEMPLICE: controlla i dispositivi per Casa Intelligente compatibili con la tua voce o imposta routine per azioni basate sulla temperatura.
- MIGLIORI INSIEME: sincronizza più dispositivi Echo compatibili o associa Fire TV per la massima esperienza visiva.