Un gruppo di ricercatori accusa LM Arena, l’organizzazione che gestisce il benchmark Chatbot Arena, di aver offerto ad alcune grandi aziende tecnologiche condizioni privilegiate per testare i propri modelli. Secondo lo studio Meta, OpenAI, Google e Amazon avrebbero potuto effettuare test privati multipli su Chatbot Arena. Questa pratica, affermano gli autori, avrebbe influito in modo significativo sul posizionamento in classifica dei modelli.
Il benchmark Chatbot Arena, nato nel 2023 all’Università della California a Berkeley, confronta le risposte di due modelli AI in modalità anonima. Gli utenti scelgono quella che preferiscono sulla base di “battaglie”, generando così una classifica basata su preferenze aggregate.
I presunti favoritismi di Chatbot Arena verso i big dell’AI
I ricercatori hanno rilevato che alcune aziende hanno avuto accesso a sessioni di test riservate. Durante questi test, i modelli potevano essere valutati in anteprima senza obbligo di pubblicazione dei punteggi. Meta, in particolare, avrebbe testato 27 varianti di modelli tra gennaio e marzo 2025, poco prima del lancio di Llama 4.
Secondo Sara Hooker, vicepresidente della ricerca AI di Cohere, solo un numero ristretto di aziende era stato informato della possibilità di test privati. Il vantaggio derivante da questi test avrebbe permesso loro di ottimizzare le performance pubbliche e consolidare il proprio prestigio nel settore.
Un vantaggio numerico non da poco
Lo studio ha analizzato oltre 2,8 milioni di battaglie tra modelli su Chatbot Arena in un periodo di cinque mesi. I ricercatori hanno osservato che alcuni laboratori, come quelli di Meta e Google, comparivano con maggiore frequenza nei confronti tra modelli.
Una maggiore presenza garantiva più dati di feedback, che potevano poi essere utilizzati per ottimizzare le performance su altri benchmark, come Arena Hard. Secondo gli autori, i dati raccolti attraverso Chatbot Arena possono migliorare le performance su Arena Hard fino al 112%.
La risposta di LM Arena riguardo Chatbot Arena e i favoritismi verso i big dell’AI
LM Arena ha respinto le accuse parlando di analisi discutibili e inaccuratezze. In un comunicato, ha ribadito il proprio impegno per valutazioni imparziali e orientate alla comunità. Ha anche sottolineato che una maggiore attività di test da parte di un’azienda non implica automaticamente un trattamento preferenziale.
In un post su X, LM Arena ha contestato il metodo di identificazione usato dai ricercatori. Lo studio si è basato su auto-identificazione dei modelli. Un metodo, secondo LM Arena, non affidabile, poiché i modelli potrebbero fornire risposte imprecise o errate.
Tuttavia, Hooker ha dichiarato che, dopo aver condiviso in anteprima le conclusioni con LM Arena, l’organizzazione non avrebbe contestato i dati preliminari. Questo silenzio avrebbe rafforzato, agli occhi degli autori, la solidità delle loro evidenze.
Il punto critico della trasparenza
Gli autori dello studio chiedono a LM Arena una maggiore trasparenza. Propongono l’introduzione di un limite chiaro al numero di test privati per ogni laboratorio AI, e la pubblicazione obbligatoria dei punteggi anche dei modelli non rilasciati. In risposta, LM Arena ha affermato che dal marzo 2024 pubblica già informazioni sui test pre-pubblici e che non ha senso mostrare punteggi di modelli non accessibili alla comunità. Secondo loro, nessun altro potrebbe verificarne la qualità.
I conflitti d’interesse
Tra le raccomandazioni avanzate dai ricercatori figura anche la revisione dell’algoritmo di campionamento dei modelli. Attualmente, alcuni modelli partecipano a molte più “battaglie” rispetto ad altri. LM Arena ha accolto con apertura questa proposta e ha dichiarato che introdurrà un nuovo algoritmo di campionamento per riequilibrare la frequenza delle sfide.
All’inizio del mese, LM Arena ha annunciato la propria trasformazione in azienda, con l’intenzione di raccogliere investimenti. Questo passaggio rafforza i timori dei ricercatori, che vedono un conflitto d’interessi tra obiettivi economici e valutazioni imparziali.
La governance delle metriche sull’AI
Il dibattito sollevato dallo studio non riguarda solo LM Arena, ma tocca un tema più ampio: la governance delle metriche AI. Quando benchmark influenti vengono gestiti da entità private o semi-private, la trasparenza diventa cruciale. La fiducia nella valutazione dei modelli dipende dalla possibilità, per tutti gli attori del settore, di accedere agli stessi strumenti e di giocare con le stesse regole. Se LM Arena vorrà mantenere il proprio ruolo centrale nel benchmarking AI, dovrà adottare misure concrete per garantire equità e rendere trasparente ogni fase del processo.
- SUONO RICCO E AVVOLGENTE: goditi un’esperienza audio migliorata con voci più nitide e bassi più profondi per un’esperienza Echo Dot immersiva.
- MUSICA E PODCAST: ascolta musica, audiolibri e podcast da Amazon Music, Audible, Apple Music, Spotify e molto altro, tramite wi-fi o Bluetooth.
- FELICE DI AIUTARTI: chiedi ad Alexa le previsioni del tempo, di impostare dei timer, di rispondere alle tue domande o semplicemente raccontarti barzellette.
- LA TUA CASA INTELLIGENTE, SEMPRE PIÙ SEMPLICE: controlla i dispositivi per Casa Intelligente compatibili con la tua voce o imposta routine per azioni basate sulla temperatura.
- MIGLIORI INSIEME: sincronizza più dispositivi Echo compatibili o associa Fire TV per la massima esperienza visiva.