OpenAI annuncia quattro importanti novità per la sua API

Linda Monfermoso

2 giorni fa

OpenAI annuncia quattro importanti novità per la sua API thumbnail

In occasione di DevDay, l’evento dedicato agli sviluppatori che si tiene ogni anno a San Francisco, Londra e Singapore, OpenAI ha presentato quattro novità relative alla sua piattaforma API. Queste seguono l’annuncio della scorsa settimana di un nuovo modello di moderazione, omni-moderation-latest, nell’API di moderazione.

La piattaforma API offerta da OpenAI ha lo scopo di rendere disponibile le capacità dei modelli linguistici di grandi dimensioni agli sviluppatori che la intendono utilizzare, il tutto rimanendo in linea con l’obiettivo dell’azienda di garantire che l’intelligenza artificiale sia sicura e vantaggiosa per tutta l’umanità.

I nuovi annunci presentati al DevDay non fanno altro che rinnovare l’impegno e la promessa di OpenAI. Vediamoli nel dettaglio.

Text-to-speech ancora più veloce grazie a Realtime API

OpenAI annuncia l’entrata ufficiale in open beta di Realtime API, che consente che consente a tutti gli sviluppatori a pagamento di creare esperienze multimodali a bassa latenza nelle loro applicazioni. Questa API assomiglia alla modalità vocale avanzata di ChatGPT, ed è in grado di supportare conversazioni naturali speech-to-speech utilizzando le sei voci preimpostate.

L’azienda sta anche introducendo l’input e l’output audio nell’API Chat Completions (si apre in una nuova finestra) per supportare casi d’uso che non richiedono i vantaggi della bassa latenza dell’API Realtime. L’aggiornamento permette agli sviluppatori di passare qualsiasi input testuale o audio a GPT-4o e far sì che il modello risponda con testo, audio o entrambi.

Realtime API apre un mondo di nuove applicazioni alimentate da AI, senza che gli sviluppatori debbano mettere insieme più modelli per creare queste esperienze.

GPT-4o1 aguzza la vista con il vision fine-tuning

Ora GPT-4o1 ha ancora più capacità di generazione grazie al vision fine-tuning, che rende possibile la messa a punto con le immagini, oltre che con il testo. Gli sviluppatori possono così personalizzare il modello in modo che abbia maggiori capacità di comprensione delle immagini.

La nuova capacità di visione consente di realizzare applicazioni come una migliore funzionalità di ricerca visiva, un migliore rilevamento degli oggetti per veicoli autonomi o città intelligenti e un’analisi più accurata delle immagini mediche.

Il vision fine-tuning segue un processo simile a quello della messa a punto del testo: gli sviluppatori possono preparare i loro dataset di immagini in modo che seguano il formato corretto e poi caricarli sulla piattaforma di OpenAI. E bastano solamente 100 immagini per migliorare le prestazioni di GPT-4o per un particolare dataset.

Distillare i modelli non è mai stato così semplice

OpenAI sta introducendo una nuova offerta di Model Distillation per fornire agli sviluppatori un flusso di lavoro integrato per gestire l’intera pipeline di distillazione direttamente all’interno della piattaforma. Grazie a questa offerta, gli sviluppatori possono utilizzare facilmente i risultati dei modelli più avanzati, come o1-preview e GPT-4o, per mettere a punto e migliorare le prestazioni di modelli più efficienti dal punto di vista dei costi come GPT-4o mini.

Il processo di distillazione dei modelli prevede infatti la messa a punto di modelli più piccoli ed efficienti dal punto di vista dei costi utilizzando i risultati di modelli più capaci, consentendo loro di eguagliare le prestazioni dei modelli avanzati su compiti specifici a un costo molto inferiore.

La suite di Model Distillation offerta da OpenAI comprende tre offerte: Stored Completions, Evals, e Fine-Tuning.

Con Stored Completions, gli sviluppatori possono ora generare facilmente set di dati per la distillazione catturando e memorizzando automaticamente le coppie input-output generate da uno dei nostri modelli, come GPT-4o o o1-preview. Ciò rende possibile creare facilmente dataset con i dati di produzione per valutare e perfezionare i modelli.

Invece, Evals permette di creare ed eseguire valutazioni personalizzate sulla piattaforma OpenAI per misurare le prestazioni del modello su compiti specifici. Questa funzionalità risparmia ai programmatori la fatica di creare manualmente script di valutazione e integrare strumenti di registrazione diversi, offrendo un modo integrato per misurare le prestazioni del modello.

Inoltre, Stored Completions e Evals sono completamente integrati con l’offerta di fine-tuning di OpenAI: gli sviluppatori possono utilizzare i dataset creati con Stored Completions nei loro lavori di fine-tuning ed eseguire valutazioni sui modelli fine-tuning utilizzando Evals.

Prompt Caching: riciclo dei token per una maggiore efficienza

Dato che molti sviluppatori utilizzano lo stesso contesto ripetutamente in più chiamate API quando realizzano applicazioni di intelligenza artificiale, OpenAI ha pensato di introdurre il Prompt Caching, una soluzione che, riutilizzando i token di input visti di recente, consente agli sviluppatori di ridurre i costi e la latenza.

Offerta

An Intuitive Exploration of Artificial Intelligence: Theory and Applications of Deep Learning

Dube, Simant (Autore)