Intelligenza Artificiale, i modelli di apprendimento risentono della qualita’ dei contenuti

| 22 Dicembre 2024
Intelligenza Artificiale, i modelli di apprendimento risentono della qualita’ dei contenuti

I ricercatori di AWS AI Labs, UC Santa Barbara e Amazon Alexa hanno presentato uno studio dal titolo “A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism”.
Lo studio e’ volto a comprendere le tendenze dei contenuti che vengono automaticamente tradotti in diverse lingue su Internet. Impatto derimente su lingue minori con aumento del divario digitale.

I contenuti tradotti dall’Intelligenza Artificiale

Secondo i ricercatori il 57% dei contenuti presenti in rete è generato dall’AI o tradotto con il supporto di uno dei modelli AI in circolazione.
Sono proprio i contenuti tradotti dall’intelligenza artificiale, molto spesso in modo sommario, a popolare il web, rappresentando una parte rilevante del contenuto nelle lingue richieste.
Presupponendo che le AI generative più note si formino su dati acquisiti tramite lo scraping, ovvero l’estrazione dai siti dei dati utili per l’addestramento dei modelli di apprendimento, se la qualità dei contenuti in rete peggiora anche i modelli di apprendimento ne risentiranno, generando un circolo vizioso.

In rete circolano contenuti di bassa qualità

In rete circolano contenuti di bassa qualità, generati o tradotti dall’AI.
Quegli stessi contenuti diventano materiale di addestramento per i modelli, che apprendono, quindi, nozioni del tutto sbagliate.
Vi è da evidenziare una ulteriore particolarità.
Una quantità significativa di contenuti web è generata dagli utenti con una limitata competenza linguistica, che porta a contenuti in lingua inglese di qualità inferiore che vengono tradotti in massa in lingue di base.
Questo fa sì che questi contenuti MT (Machine Translation) di bassa qualità, basati su modelli di linguaggio di grandi dimensioni, producano effetti negativi.
In particolare, si ha:

  • Precisione ridotta. Le traduzioni di bassa qualità riducono le prestazioni, influenzando l’esperienza dell’utente.
  • Applicazione limitata. Il contenuto di bassa qualità può limitare l’applicabilità del modello, in particolare in domini specifici o applicazioni in serie.
  • Impatto negativo sui linguaggi delle risorse minori. L’eccessiva rappresentazione di contenuti di bassa qualità in queste lingue può ampliare il divario digitale.

Traduzioni “difettose”

Una notevole prevalenza di traduzioni automatiche “difettose” a livello diffuso nel web solleva preoccupazioni sull’affidabilità e la qualità dei contenuti generati attraverso l’intelligenza artificiale, quindi sui modelli di formazione come modelli linguistici di grandi dimensioni multilingue sia su dati monolingue che bilingue.
Dopo aver analizzato oltre sei miliardi di frasi online, i ricercatori hanno scoperto che più della metà aveva subito la traduzione in due o più lingue, con una parte significativa che mostra una scarsa qualità della traduzione.
Queste traduzioni sono state sottoposte a ulteriori iterazioni, fino a nove lingue, e la qualità si è notevolmente deteriorata.
I ricercatori hanno scoperto che le traduzioni parallele altamente multidirezionali sono significativamente inferiori rispetto alle traduzioni parallele bidirezionali, il che significa che le regioni sottorappresentate sul web, come i paesi africani e altre nazioni, dovranno affrontare sfide più significative nella creazione di modelli linguistici affidabili di grandi dimensioni.
Con poche risorse native a cui attingere, devono fare molto affidamento sulle traduzioni contaminate che inondano il mercato.

Bias nella selezione dei contenuti per l’allenamento AI

I ricercatori hanno anche identificato bias nella selezione del contenuto per l’addestramento all’AI, con traduzioni parallele multidirezionali generate dalla macchina che dominano il contenuto totale tradotto in lingue di risorse inferiori.
I risultati dello studio sottolineano le sfide poste dalle traduzioni generate dalle macchine, evidenziando le preoccupazioni circa l’accuratezza, la fluidità e l’affidabilità dei contenuti generati attraverso i sistemi di intelligenza artificiale.
Lo studio sostiene che la traduzione automatica a basso costo, che prende un determinato contenuto e lo ripropone in più lingue, è il colpevole principale.
La crescente quantità di contenuti generati dall’intelligenza artificiale su Internet combinata con la crescente dipendenza dagli strumenti di intelligenza artificiale per modificare e manipolare il contenuto potrebbe portare a un fenomeno noto come collasso del modello e sta già riducendo la qualità dei risultati di ricerca in tutto il web.
I ricercatori di Amazon hanno trovato pregiudizi nella selezione dei contenuti utilizzati per la formazione AI.

Le traduzioni parallele

Le traduzioni parallele generate dalla macchina non solo dominano la quantità totale di contenuti tradotti sul web in lingue di risorse inferiori, ma costituiscono anche una grande frazione del contenuto web totale in quelle lingue.
I ricercatori del laboratorio di intelligenza artificiale di Amazon Web Services hanno scoperto che oltre la metà delle frasi sul web sono state tradotte in due o più lingue, spesso con una qualità sempre peggiore a causa della scarsa traduzione automatica (MT).
Lo studio ha generato un corpus di 6,38 miliardi di frasi scartate dal web.
Esaminando i modelli di parallelismo multidirezionale emerge che sono insiemi di frasi che sono traduzioni dirette l’una dell’altra in tre o più lingue.
Il 57,1% delle frasi nel corpus erano parallele multidirezionali in almeno tre lingue.
Come tutti gli sforzi di apprendimento automatico, la traduzione automatica è influenzata dai pregiudizi umani e si orienta verso le lingue parlate nel mondo occidentale e nel Nord del mondo.
Per questo motivo, la qualità delle traduzioni varia in modo selvaggio, con le lingue “a basse risorse” come quelle africane che non hanno dati di formazione sufficienti per produrre un testo accurato.

Questo sito è protetto da reCAPTCHA e la Informativa sulla Privacy di Google, nonché i Termini di Servizio sono applicabili.