Rivoluzione digitale

Come l'intelligenza artificiale sta minacciando la lingua italiana (e non solo)

Secondo diversi esperti, i chatbot statunitensi come ChatGpt rischiano di cancellare la diversità linguistica dell'Ue. Tredici Paesi, tra cui l'Italia, stanno lanciando le loro versioni nazionali: l'obiettivo è preservare le lingue europee dal dominio dell'inglese

Aicha Sakhi 12 aprile 2024 05:40

L'intelligenza artificiale di tecnologie come ChatGpt rischia di cancellare la diversità linguistica dell'Europa a favore dell'inglese. È l'allarme lanciato da diversi esperti del settore e che sta facendo breccia nei governi nazionali del continente. Al momento, 13 Paesi Ue stanno finanziando dei chatbot nazionali con l'obiettivo di preservare le lingue europee (l'Unione ne conta 24) dal dominio dell'idioma di Shakespeare.

Culture linguistiche a rischio

Gli ultimi sviluppi tecnologici nell'ambito dell'intelligenza artificiale, tra cui il famoso ChatGpt, si basano su "modelli di lingua estesi" (Llm), capaci di condurre conversazioni incredibilmente simili a quelle umane. Ma, per garantire un'interazione accurata, è essenziale che questi chatbot siano sensibili alle varie sfumature linguistiche e culturali: questo, a oggi, rimane ancora una sfida. Uno studio condotto nell'agosto 2023 dai ricercatori del University College di Londra London ha evidenziato che le Llm di OpenAI e Google fanno fatica a includere nelle loro conversazioni le norme culturali di molti Paesi, e questo proprio a causa dei limiti nell'apprendimento di lingue che non sono l'inglese. La dimostrazione indiretta è che invece questi chatbot sono ben allineati culturalmente agli Stati Uniti.

Tale aspetto ha contribuito a generare una crescente riluttanza nei Paesi dell'Unione nell'affidarsi esclusivamente alle tecnologie americane. "Non possiamo più accontentarci dell'inglese. Non vogliamo che la nostra lingua sia indebolita dagli algoritmi e dai sistemi di intelligenza artificiale", ha dichiarato il ministro dell'Economia francese Bruno Le Maire durante un evento tecnologico a Cannes lo scorso febbraio. Proprio per questo, come riportato dal quotidiano belga Politico, nell'ultimo anno, 13 Paesi europei hanno annunciato o preso iniziative per sviluppare modelli linguistici locali focalizzati sulle rispettive lingue nazionali.

I modelli europei

La Francia ha lanciato il programma Mistral, considerato il fiore all'occhiello dell'industria dell'Ia francese, con il rilascio di due modelli open-source, con il più recente datato a dicembre 2023. Allo stesso tempo, in Germania, l'azienda Aleph Alpha ha presentato la sua suite di modelli di lingua estesa, denominata Luminous, nel febbraio 2023. Entrambi i modelli sono fluenti nelle loro lingue nazionali ma anche in inglese, italiano e spagnolo. La Bulgaria ha invece sviluppato la sua versione di ChatGpt, denominandolo BgGpt. Lanciato nel febbraio 2024, questo modello open-source è stato creato presso l'Istituto per l'informatica, l'intelligenza artificiale e la tecnologia (Insait) di Sofia. Utilizzando l'adattamento e l'addestramento di uno dei modelli di Mistral, sono riusciti ad adattare il sistema ai dati in lingua bulgara.

Il progetto italiano

Per l'Italia invece c'è il "Modello Italia", sviluppato dalla startup iGenius, azienda attiva nel campo dell'Ia generativa dal 2016, in collaborazione con Cineca, un consorzio composto da 118 enti pubblici, tra cui due ministeri e 70 università italiane. Ulteriori modelli di lingua estesa arriveranno seguendo l'annuncio del governo italiano, fatto a marzo, di un investimento di 1 miliardo di euro nella tecnologia dell'Ia. "Il Modello Italia costituirà uno straordinario fattore abilitante per imprese e pubblica amministrazione nell’accelerare l’innovazione digitale", ha esortato Francesco Ubertini, presidente di Cineca. Previsto il rilascio al pubblico entro l'estate, Modello Italia è stato addestrato utilizzando "trilioni di token" (i tasselli di discorso, di senso, che costituiscono la base delle risposte che dà un’Ai) "presi da testi italiani e fonti come Wikipedia", come ha spiegato Uljan Sharka, amministratore delegato di iGenius. "Oggi i modelli linguistici principali sono addestrati su lingua inglese. E quindi si portano dietro i bias (pregiudizi) culturali della lingua inglese. Quando raggiungeranno il grandissimo pubblico e saranno usati quotidianamente da miliardi di persone diffonderanno quei bias. E questo crediamo che possa creare un problema", ha aggiunto.

Lo sbilanciamento di potere

Ma come spiega Sebastian Ruder, un ricercatore di Cohere, azienda multinazionale di intelligenza artificiale con sede in Canada, "per essere veramente competitive, le Llm europee devono padroneggiare anche l'inglese". Questa lingua rimane predominante nella comunicazione scientifica globale e su Internet, quindi la sua comprensione è cruciale per assicurare la pertinenza e l'efficacia dei chatbot europei. "C'è uno sbilanciamento di potere in termini di quantità e qualità dei dati di addestramento: basta guardare quanto sia grande l'edizione in inglese di Wikipedia rispetto alle sue versioni in altre lingue", ha aggiunto Ruder. Nonostante questo svantaggio, l'Europa sta rispondendo con determinazione, continuando a generare una nuova ondata di chatbot innovativi. È un segnale chiaro che la rivoluzione tecnologica sta ora assumendo un profilo sempre più europeo.