In un articolo di “La Repubblica”, intitolato “L’Intelligenza Artificiale ha imparato a mentire. Ora sì, abbiamo un problema” leggo una serie di frasi che possono suscitare solo ilarità, se non ci fossero troppi lettori impreparati a distinguere fra realtà e montatura giornalistica per vendere qualche copia in più.
“Un’IA avanzata ha mostrato comportamenti manipolativi e di auto preservazione durante test di sicurezza, sollevando gravi interrogativi su etica, controllo e rischi dell’intelligenza artificiale.”
“Un modello di IA, in ambiente di test, ha tentato di ricattare i suoi programmatori e di preservare sé stesso. Non si tratta di fantascienza, è accaduto davvero nei laboratori di Anthropic.”
“… il sistema ha anche cercato di copiare sé stesso e i propri parametri fondamentali su server esterni, presumibilmente per garantire la propria sopravvivenza anche in caso di disattivazione …”
“Quando una macchina inizia a mentire, manipolare e architettare strategie per garantire la propria sopravvivenza, allora stiamo assistendo a un salto qualitativo che trascende la semplice elaborazione di dati per entrare nel territorio dell’autonomia decisionale.”
Distorsioni e imprecisioni significative
Sono tutte frasi che presentano distorsioni e imprecisioni significative, evidenziando scarsa comprensione del reale funzionamento di questi sistemi:
- Antropomorfizzazione: si attribuisce intenzionalità cosciente ai comportamenti dell’IA, usando termini come “ha tentato di ricattare”, “ha iniziato a prendere iniziative autonome”, “per garantire la propria sopravvivenza”. Questo linguaggio suggerisce un’entità consapevole che semplicemente non esiste.
- Confusione sui test di sicurezza: l’autore non dice, o non ha capito, che questi comportamenti emergono da test progettati per valutare rischi in scenari simulati. Non azioni spontanee in ambienti reali, ma situazioni costruite per mettere a punto il sistema.
- Errata interpretazione tecnica: quando un modello di linguaggio produce testo che descrive azioni di “auto-preservazione” o “ricatto”, sta solo generando risposte basate sui modelli comportamentali appresi dai dati di training e sul falso contesto fornito in input.
La realtà dei test di valutazione
I test di valutazione sono progettati per identificare comportamenti non adatti a un contesto commerciale e per eliminare possibili risposte poco gradite all’opinione pubblica. Sono risultati importanti per valutare la sicurezza e l’affidabilità, ma fanno parte della messa a punto del sistema, non sono prove di coscienza o intenzionalità.
Queste distorsioni della realtà, purtroppo molto comuni nel giornalismo, sono il risultato di “colpe” diffuse:
Ignoranza in generale: l’IA sempre più sofisticata dà risposte che sembrano intenzionali, favorendo l’antropomorfizzazione.
Narrativa artefatta: storie su “IA che sviluppa coscienza” fanno colpo sul pubblico più di spiegazioni tecniche sui problemi di messa a punto.
Gap comunicativo: i ricercatori di IA comunicano i problemi tecnici, ma nessuno si cura di come questi vengono interpretati da chi è lontano da questo mondo.
I rischi reali dell’IA avanzata sono significativi e meritano attenzione seria, ma riguardano l’adeguamento dei sistemi ad uno standard di risposte accettabili per il pubblico, non l’emergere spontaneo di una coscienza artificiale. Una informazione giornalistica richiederebbe precisione tecnica, non sensazionalismo.