OpenAI annuncia GPT-4o, il modello AI con funzioni vocali e visive in tempo reale

OpenAI annuncia GPT-4o, il modello AI con funzioni vocali e visive in tempo reale

14 Maggio 2024 19

Come previsto, nel corso del suo "Spring Update", OpenAI non ha annunciato nè GPT-5 nè un motore di ricerca basato su ChatGPT con cui competere con Google e Bing ma ha svelato l'ultima versione della tecnologia alla base del suo chatbot AI ChatGPT, chiamata GPT-4o (dove "o" sta per "omni") , che sarà offerta gratuitamente a tutti gli utenti di ChatGPT, compresi i non abbonati.

GPT-4O, PIU' COLLOQUIALE E ''RICORDA''

GPT-4o è più veloce dei modelli precedenti ed è stato annunciato come "un passo avanti verso un'interazione uomo-computer molto più naturale". Questa nuova versione può leggere e discutere immagini, tradurre lingue e identificare emozioni dalle espressioni visive. GPT-4o ha anche "memoria" in modo che possa richiamare dei suggerimenti precedenti.

Inoltre, può essere interrotto e ha un ritmo di conversazione più semplice: il ritardo tra la domanda e la ricezione della risposta, infatti, è di soli 232 millisecondi, con una media di 320 millisecondi, che è simile al tempo di risposta umano in una conversazione. Per quanto riguarda testo in inglese e codice, invece, GPT-4o eguaglia le prestazioni di GPT-4 Turbo offrendo anche un miglioramento significativo su testo in lingue diverse dall'inglese, oltre ad essere molto più veloce e più economico del 50% nell'API.

"Come misurato sui benchmark tradizionali, GPT-4o raggiunge prestazioni di livello GPT-4 Turbo sull'intelligenza di testo, ragionamento e codifica, stabilendo al contempo nuovi limiti elevati sulle capacità multilingue, audio e visive."

Prima di GPT-4o, secondo quanto affermato da OpenAI, si poteva utilizzare la modalità vocale per parlare con ChatGPT con una latenza media di 2,8 secondi (GPT-3.5) e 5,4 secondi (GPT-4). Questi tempi erano dovuti all'utilizzo di tre modelli separati: un primo che trascrive l'audio in testo, GPT-3.5 o GPT-4 che accetta il testo e genera e un terzo modello semplice che riconverte il testo in audio. Questo processo fa perdere molte informazioni al modello

GPT-4o è invece un unico modello che consente di elaborare tutti gli input e output sulla stessa rete neurale. Essendo il primo modello che combina tutte queste modalità, OpenAI sta ancora "solo esplorando la superficie dell'esplorazione di ciò che il modello può fare e dei suoi limiti".

Oggi GPT-4o è decisamente migliore di qualsiasi modello esistente nel comprendere e discutere le immagini che condividi. Ad esempio, ora puoi scattare una foto di un menu in una lingua diversa e parlare con GPT-4o per tradurlo, conoscere la storia e il significato del cibo e ottenere consigli. In futuro, i miglioramenti consentiranno conversazioni vocali più naturali e in tempo reale e la possibilità di conversare con ChatGPT tramite video in tempo reale.


Durante una demo dal vivo della versione vocale di GPT-4o, sono stati forniti suggerimenti utili su come risolvere una semplice equazione scritta su un pezzo di carta, anziché dare semplicemente il risultato. Il modello ha anche analizzato alcuni codici informatici, traducendo tra italiano e inglese e interpretando le emozioni in un selfie di un uomo sorridente. Usando una voce femminile, inoltre, GPT-4o ha salutato gli intervistatori e, quanto le è stato fatto un complimenti ha risposto: "Smettila, mi fai arrossire!".

Tuttavia, non è stato tutto perfetto durante le demo. Ad esempio, GPT-4o ha scambiato un uomo sorridente per una superficie di legno (ma è probabile che abbia visto inizialmente tramite la fotocamera posteriore) e ha iniziato a risolvere un'equazione che non gli era stata ancora mostrata. Ciò ha involontariamente dimostrato che c’è ancora comunque strada da fare prima che problemi tecnici e eventuali "allucinazioni" che rendono i chatbot spesso inaffidabili e potenzialmente pericolosi possano essere risolti.

Ma ciò che ha voluto dimostrare OpenAI è la direzione che ha intrapreso facendo si che GPT-4o possa rappresentare la prossima generazione di assistenti digitali AI, una sorta di Siri di Apple o "Hey Google" in grado anche di ricordare ciò che gli è stato chiesto in passato e interagire oltre la voce o il testo.

Proprio Apple, ricordiamo, pare che abbia recentemente stretto un accordo con OpenAI per utilizzare GPT nelle funzionalità di intelligenza artificiale che verranno integrate nelle prossime versioni dei suoi sistemi operativi che verranno annunciati all'inizio di giugno nel corso della WWDC. GPT-4o arriva a distanza di un solo giorno dalla conferenza annuale degli sviluppatori di Google durante la quale saranno probabilmente fatti una serie di annunci relativi proprio all'intelligenza artificiale.

MAGGIORE ATTENZIONE ALLA SICUREZZA

Per quanto riguarda la sicurezza, secondo quanto affermato da OpenAI, in GPT-4o è integrata fin dalla progettazione in tutte le modalità, attraverso tecniche come il filtraggio dei dati di addestramento e il perfezionamento del comportamento del modello attraverso la post-formazione. OpenAI, inoltre, afferma di aver creato nuovi sistemi di sicurezza per fornire una notevole protezione sugli output vocali. GPT-4o è stato anche sottoposto anche a dei test esterni con oltre 70 esperti in vari settori tra i quali psicologia sociale, pregiudizi, equità e disinformazione per identificare i rischi introdotti o amplificati dalle modalità aggiunte.

Ovviamente, sottolinea OpenAI, le modalità audio di GPT-4o presentano una serie di nuovi rischi per cui da oggi sono disponibili unicamente input di testo e immagini e output di testo. Nelle prossime settimane e mesi verrà proseguito il lavoro sul perfezionamento dell'infrastruttura tecnica, sull'usabilità tramite post-formazione e sulla sicurezza necessaria per rilasciare le altre modalità.

Le funzionalità di testo e immagini di GPT-4o saranno implementate da subito in ChatGPT. Il modello GPT-4o sarà gratuito, ma gli utenti premium "Plus" avranno un limite di capacità maggiore per i messaggi. Nelle prossime settimane verrà implementata una nuova modalità vocale con GPT-4o in versione alpha in ChatGPT Plus. Gli sviluppatori possono accedere a GPT-4o anche tramite API come modello di testo e visione.

NUOVA INTERFACCIA WEB, APP PER MAC E GPT STORE PER TUTTI

Oltre a GPT-4o, OpenAI ha anche annunciato che sta apportando alcuni aggiornamenti all'interfaccia web di ChatGPT, introducendo una nuova schermata iniziale, un layout dei messaggi ridisegnato e altro ancora. Il nuovo look è "progettato per essere più amichevole e colloquiale", ha affermato la società.

ChatGPT Web

Annunciato, inoltre, anche il rilascio di un'app desktop per Mac. L'app verrà distribuita da oggi agli abbonati ChatGPT Plus prima di un lancio più ampio "nelle prossime settimane". "Con una semplice scorciatoia da tastiera (Opzione + Spazio), puoi porre immediatamente una domanda a ChatGPT", si legge nel comunicato stampa di OpenAI. Inoltre, la modalità vocale consentirà agli utenti di "avere conversazioni vocali con ChatGPT direttamente dal Mac". OpenAI prevede di rilasciare anche una versione Windows dell'app desktop entro la fine dell'anno.

ChatGPT per Mac

OpenAI, infine, ha annunciato che renderà disponibili anche agli utenti gratuiti di ChatGPT alcune delle sue funzionalità precedentemente disponibili solo in abbonamento, tra cui la possibilità di navigare nel GPT Store e utilizzare bot personalizzati. Il GPT Store consente di creare i propri chatbot, chiamati GPT, e di condividerli.

GPT Store � ora disponibile per tutti gli utenti

Tra i bot "di tendenza" ce n'è attualmente uno per la a generazione di immagini, uno chiamato "Consensus" pensato per aiutare nella ricerca scientifica e un bot per la creazione di loghi. OpenAI offrirà anche un programma di condivisione delle entrate per i creatori di GPT, attualmente pochi proprio a causa della restrizione della funzionalità agli utenti ChatGPT paganti


19

Commenti

Regolamento Commentando dichiaro di aver letto il regolamento e di essere a conoscenza delle informazioni e norme che regolano le discussioni sul sito. Clicca per info.
Caricamento in corso. Per commentare attendere...
efremis

Tanta roba

TheAlabek

Ma secondo te la vuole buona?

Surak 2.05

OK, in certi posti ovviamente un'IA, per altro, si licenzierebbe subito ma sono posti spesso dove ancora ci sono i dattilografi per cui...
C'� per� tutto un mondo economico, ma anche politico, dove una traduzione anche non certificata pu� svolgere il compito di un umano portato e pagato apposta, poi ovviamente se non si tratta di semplici viaggi di conoscenza o accordi basilari, prima di firmare qualcosa chiederanno ad un interprete certificato
Comunque se in 2 anni siamo arrivati a robe del genere, pensa tra altri 2

virtual

Non parla neppure male italiano!

FlowersPowerz

io con il plus si

pollopopo

La carta costa de la vuoi buona

Kerees

idem, interessato.

Kerees

sottoscrivo

mruser2

Voi lo vedete il 4o? Io soltanto il 3.5

TheAlabek

Carta e penna

S8Cblog

mi consigliate un generatore di immagini/video gratis senza iscrizione?

momentarybliss

E con questa release mi pare che mettano anche tranquillo Musk che nella sua causa aveva rielvato come Open AI non stesse mettendo a disposizione di tutti ChatGPT 4

kilmau78

Stai tranquillo. tanto questa � l'unica foto che ha sul profilo ....

https://uploads.disquscdn.c...

Fabios112

IG della tipa ?

Il sogno su CaIIea con Siri prende forma

Surak 2.05

L'errore del tavolo al posto del viso, sembra dettato dal fatto che 4o avesse chiesto un selfie, quindi una foto, e ha visto l'ultima inviata.
A meno che non sia stata una finta per cercare di giustificare, pi� che un'allucinazione � stato un fraintendimento.
In compenso se la parte dove fa le traduzioni, per altro fortunatamente la Murati ha usato l'italiano cos� da rendere pi� chiara la capacit� di 4o, a parte l'accento russo, ed � da dire che se non era preparata prima, il mestiere di interprete � finito

It@cense

Se non � magic non ci interessa

Melon Fax

se la notizia non la da yepp nei commenti nessuno ci crede

Pasticchio

Hdblog sveglia, � uscito ieri ios17.5 e tutti gli altri Os, dov � la notizia?