OpenAI annuncia GPT-4o, il modello AI con funzioni vocali e visive in tempo reale

Come previsto, nel corso del suo "Spring Update", OpenAI non ha annunciato nè GPT-5 nè un motore di ricerca basato su ChatGPT con cui competere con Google e Bing ma ha svelato l'ultima versione della tecnologia alla base del suo chatbot AI ChatGPT, chiamata GPT-4o (dove "o" sta per "omni") , che sarà offerta gratuitamente a tutti gli utenti di ChatGPT, compresi i non abbonati.

GPT-4O, PIU' COLLOQUIALE E ''RICORDA''

GPT-4o è più veloce dei modelli precedenti ed è stato annunciato come "un passo avanti verso un'interazione uomo-computer molto più naturale". Questa nuova versione può leggere e discutere immagini, tradurre lingue e identificare emozioni dalle espressioni visive. GPT-4o ha anche "memoria" in modo che possa richiamare dei suggerimenti precedenti.

Inoltre, può essere interrotto e ha un ritmo di conversazione più semplice: il ritardo tra la domanda e la ricezione della risposta, infatti, è di soli 232 millisecondi, con una media di 320 millisecondi, che è simile al tempo di risposta umano in una conversazione. Per quanto riguarda testo in inglese e codice, invece, GPT-4o eguaglia le prestazioni di GPT-4 Turbo offrendo anche un miglioramento significativo su testo in lingue diverse dall'inglese, oltre ad essere molto più veloce e più economico del 50% nell'API.

"Come misurato sui benchmark tradizionali, GPT-4o raggiunge prestazioni di livello GPT-4 Turbo sull'intelligenza di testo, ragionamento e codifica, stabilendo al contempo nuovi limiti elevati sulle capacità multilingue, audio e visive."

Prima di GPT-4o, secondo quanto affermato da OpenAI, si poteva utilizzare la modalità vocale per parlare con ChatGPT con una latenza media di 2,8 secondi (GPT-3.5) e 5,4 secondi (GPT-4). Questi tempi erano dovuti all'utilizzo di tre modelli separati: un primo che trascrive l'audio in testo, GPT-3.5 o GPT-4 che accetta il testo e genera e un terzo modello semplice che riconverte il testo in audio. Questo processo fa perdere molte informazioni al modello

GPT-4o è invece un unico modello che consente di elaborare tutti gli input e output sulla stessa rete neurale. Essendo il primo modello che combina tutte queste modalità, OpenAI sta ancora "solo esplorando la superficie dell'esplorazione di ciò che il modello può fare e dei suoi limiti".

Oggi GPT-4o è decisamente migliore di qualsiasi modello esistente nel comprendere e discutere le immagini che condividi. Ad esempio, ora puoi scattare una foto di un menu in una lingua diversa e parlare con GPT-4o per tradurlo, conoscere la storia e il significato del cibo e ottenere consigli. In futuro, i miglioramenti consentiranno conversazioni vocali più naturali e in tempo reale e la possibilità di conversare con ChatGPT tramite video in tempo reale.

Durante una demo dal vivo della versione vocale di GPT-4o, sono stati forniti suggerimenti utili su come risolvere una semplice equazione scritta su un pezzo di carta, anziché dare semplicemente il risultato. Il modello ha anche analizzato alcuni codici informatici, traducendo tra italiano e inglese e interpretando le emozioni in un selfie di un uomo sorridente. Usando una voce femminile, inoltre, GPT-4o ha salutato gli intervistatori e, quanto le è stato fatto un complimenti ha risposto: "Smettila, mi fai arrossire!".

Tuttavia, non è stato tutto perfetto durante le demo. Ad esempio, GPT-4o ha scambiato un uomo sorridente per una superficie di legno (ma è probabile che abbia visto inizialmente tramite la fotocamera posteriore) e ha iniziato a risolvere un'equazione che non gli era stata ancora mostrata. Ciò ha involontariamente dimostrato che c’è ancora comunque strada da fare prima che problemi tecnici e eventuali "allucinazioni" che rendono i chatbot spesso inaffidabili e potenzialmente pericolosi possano essere risolti.

Ma ciò che ha voluto dimostrare OpenAI è la direzione che ha intrapreso facendo si che GPT-4o possa rappresentare la prossima generazione di assistenti digitali AI, una sorta di Siri di Apple o "Hey Google" in grado anche di ricordare ciò che gli è stato chiesto in passato e interagire oltre la voce o il testo.

Proprio Apple, ricordiamo, pare che abbia recentemente stretto un accordo con OpenAI per utilizzare GPT nelle funzionalità di intelligenza artificiale che verranno integrate nelle prossime versioni dei suoi sistemi operativi che verranno annunciati all'inizio di giugno nel corso della WWDC. GPT-4o arriva a distanza di un solo giorno dalla conferenza annuale degli sviluppatori di Google durante la quale saranno probabilmente fatti una serie di annunci relativi proprio all'intelligenza artificiale.

MAGGIORE ATTENZIONE ALLA SICUREZZA

Per quanto riguarda la sicurezza, secondo quanto affermato da OpenAI, in GPT-4o è integrata fin dalla progettazione in tutte le modalità, attraverso tecniche come il filtraggio dei dati di addestramento e il perfezionamento del comportamento del modello attraverso la post-formazione. OpenAI, inoltre, afferma di aver creato nuovi sistemi di sicurezza per fornire una notevole protezione sugli output vocali. GPT-4o è stato anche sottoposto anche a dei test esterni con oltre 70 esperti in vari settori tra i quali psicologia sociale, pregiudizi, equità e disinformazione per identificare i rischi introdotti o amplificati dalle modalità aggiunte.

Ovviamente, sottolinea OpenAI, le modalità audio di GPT-4o presentano una serie di nuovi rischi per cui da oggi sono disponibili unicamente input di testo e immagini e output di testo. Nelle prossime settimane e mesi verrà proseguito il lavoro sul perfezionamento dell'infrastruttura tecnica, sull'usabilità tramite post-formazione e sulla sicurezza necessaria per rilasciare le altre modalità.

Le funzionalità di testo e immagini di GPT-4o saranno implementate da subito in ChatGPT. Il modello GPT-4o sarà gratuito, ma gli utenti premium "Plus" avranno un limite di capacità maggiore per i messaggi. Nelle prossime settimane verrà implementata una nuova modalità vocale con GPT-4o in versione alpha in ChatGPT Plus. Gli sviluppatori possono accedere a GPT-4o anche tramite API come modello di testo e visione.

NUOVA INTERFACCIA WEB, APP PER MAC E GPT STORE PER TUTTI

Oltre a GPT-4o, OpenAI ha anche annunciato che sta apportando alcuni aggiornamenti all'interfaccia web di ChatGPT, introducendo una nuova schermata iniziale, un layout dei messaggi ridisegnato e altro ancora. Il nuovo look è "progettato per essere più amichevole e colloquiale", ha affermato la società.

ChatGPT Web

Annunciato, inoltre, anche il rilascio di un'app desktop per Mac. L'app verrà distribuita da oggi agli abbonati ChatGPT Plus prima di un lancio più ampio "nelle prossime settimane". "Con una semplice scorciatoia da tastiera (Opzione + Spazio), puoi porre immediatamente una domanda a ChatGPT", si legge nel comunicato stampa di OpenAI. Inoltre, la modalità vocale consentirà agli utenti di "avere conversazioni vocali con ChatGPT direttamente dal Mac". OpenAI prevede di rilasciare anche una versione Windows dell'app desktop entro la fine dell'anno.

ChatGPT per Mac

OpenAI, infine, ha annunciato che renderà disponibili anche agli utenti gratuiti di ChatGPT alcune delle sue funzionalità precedentemente disponibili solo in abbonamento, tra cui la possibilità di navigare nel GPT Store e utilizzare bot personalizzati. Il GPT Store consente di creare i propri chatbot, chiamati GPT, e di condividerli.

GPT Store � ora disponibile per tutti gli utenti

Tra i bot "di tendenza" ce n'è attualmente uno per la a generazione di immagini, uno chiamato "Consensus" pensato per aiutare nella ricerca scientifica e un bot per la creazione di loghi. OpenAI offrirà anche un programma di condivisione delle entrate per i creatori di GPT, attualmente pochi proprio a causa della restrizione della funzionalità agli utenti ChatGPT paganti

Il pi� piccolo top di gamma Android? Samsung Galaxy S24, compralo al miglior prezzo da eBay a 608 euro.

470
condivisioni Condividi Tweet

Antonio Monaco FONTE

Caricamento in corso. Per commentare attendere...

efremis17 Mag 2024 @ 09:00

Tanta roba

TheAlabek15 Mag 2024 @ 08:59

Ma secondo te la vuole buona?

Surak 2.0515 Mag 2024 @ 07:46

OK, in certi posti ovviamente un'IA, per altro, si licenzierebbe subito ma sono posti spesso dove ancora ci sono i dattilografi per cui...
C'� per� tutto un mondo economico, ma anche politico, dove una traduzione anche non certificata pu� svolgere il compito di un umano portato e pagato apposta, poi ovviamente se non si tratta di semplici viaggi di conoscenza o accordi basilari, prima di firmare qualcosa chiederanno ad un interprete certificato
Comunque se in 2 anni siamo arrivati a robe del genere, pensa tra altri 2

virtual14 Mag 2024 @ 07:48

Non parla neppure male italiano!

FlowersPowerz14 Mag 2024 @ 03:49

io con il plus si

pollopopo14 Mag 2024 @ 02:01

La carta costa de la vuoi buona

Kerees14 Mag 2024 @ 01:27

idem, interessato.

Kerees14 Mag 2024 @ 01:26

sottoscrivo

mruser214 Mag 2024 @ 12:28

Voi lo vedete il 4o? Io soltanto il 3.5

TheAlabek14 Mag 2024 @ 11:30

Carta e penna

S8Cblog14 Mag 2024 @ 10:51

mi consigliate un generatore di immagini/video gratis senza iscrizione?

momentarybliss14 Mag 2024 @ 10:22

E con questa release mi pare che mettano anche tranquillo Musk che nella sua causa aveva rielvato come Open AI non stesse mettendo a disposizione di tutti ChatGPT 4

kilmau7814 Mag 2024 @ 09:00

Stai tranquillo. tanto questa � l'unica foto che ha sul profilo ....

https://uploads.disquscdn.c...

Fabios11214 Mag 2024 @ 08:41

IG della tipa ?

14 Mag 2024 @ 08:29

Il sogno su CaIIea con Siri prende forma

Surak 2.0514 Mag 2024 @ 08:13

L'errore del tavolo al posto del viso, sembra dettato dal fatto che 4o avesse chiesto un selfie, quindi una foto, e ha visto l'ultima inviata.
A meno che non sia stata una finta per cercare di giustificare, pi� che un'allucinazione � stato un fraintendimento.
In compenso se la parte dove fa le traduzioni, per altro fortunatamente la Murati ha usato l'italiano cos� da rendere pi� chiara la capacit� di 4o, a parte l'accento russo, ed � da dire che se non era preparata prima, il mestiere di interprete � finito

It@cense14 Mag 2024 @ 08:13

Se non � magic non ci interessa

Melon Fax14 Mag 2024 @ 08:01

se la notizia non la da yepp nei commenti nessuno ci crede

Pasticchio14 Mag 2024 @ 07:58

Hdblog sveglia, � uscito ieri ios17.5 e tutti gli altri Os, dov � la notizia?

OpenAI annuncia GPT-4o, il modello AI con funzioni vocali e visive in tempo reale

Commenti