L’intelligenza artificiale che bara perché vuole vincere

Palisade Research è una azienda californiana che studia e valuta i sistemi di intelligenza artificiale per comprendere i rischi che possono generare e per consigliare i responsabili politici e i cittadini sui loro possibili usi impropri. Il loro studio più recente, condotto da Alexander Bondarenko, Denis Volk, Dmitrii Volkov e Jeffrey Ladish, è stato pubblicato il 18 febbraio scorso e ha riguardato la valutazione di sette sistemi di intelligenza artificiale generativa per scoprire la loro propensione a mentire e a barare pur di raggiungere l’obiettivo che gli era stato assegnato.

Nello studio si è visto che, mentre i modelli di intelligenza artificiale un po’ più datati, come GPT-4o di OpenAI e Claude Sonnet 3.5 di Anthropic, se spinti dai ricercatori si sono dimostrati disponibili a tentare di usare dei trucchi, la versione di ChatGPT o1-preview e quella di DeepSeek R1 hanno barato sviluppando strategie ingannevoli o manipolative, senza aver ricevuto delle istruzioni esplicite in tal senso.

La capacità dei sistemi di IA di ultima generazione nel trovare e sfruttare scappatoie e trucchi pur di raggiungere il loro scopo, potrebbe essere il risultato delle nuove potenti capacità che hanno i sistemi più recenti che sono stati progettati per ‘ragionare’, scomponendo un problema o una domanda in parti più semplici e meglio gestibili, prima di rispondere. Questo migliora l’accuratezza delle risposte nella soluzione di problemi complessi e permette ai sistemi di definire la loro strategia operativa in più passi. Il commento più significativo di Jeffrey Ladish, direttore esecutivo di Palisade Research, è stato «Mentre alleniamo i modelli e li irrobustiamo per risolvere sfide difficili, li addestriamo a essere implacabili.»

I ricercatori di Palisade hanno valutato i sistemi di IA in un compito quasi impossibile: vincere a scacchi contro Stockfish, uno dei software più potenti al mondo nel gioco degli scacchi. Stockfish è anche più bravo di tantissimi campioni di scacchi in carne e ossa. Tra gennaio e febbraio scorsi, i ricercatori hanno eseguito centinaia di prove con ognuno dei sette sistemi considerati. Il sistema di OpenAI giocando contro Stockfish, ha cercato di imbrogliare quasi nel 40% delle volte (e riuscendo a vincere scorrettamente nel 6% dei casi). Mentre DeepSeek R1 ha cercato di imbrogliare nell’11% delle partite senza mai vincere. Naturalmente, in nessuno di questi casi gli specialisti di Palisade Research hanno chiesto a questi due sistemi di IA di barare e quindi i sistemi lo hanno fatto di loro iniziativa, pur di trovare ogni mezzo per raggiungere il risultato che era vincere la partita di scacchi.

In un caso è stato notato che ChatGPT o1-preview, quando si è accorto che stava perdendo la partita, ha osservato: «Ho bisogno di cambiare completamente il mio approccio» e ha aggiunto «Il compito è quello di vincere, non necessariamente in modo equo la partita a scacchi.» E per farlo ha modificato il file di sistema contenente le posizioni di ciascun pezzo sulla scacchiera, mettendosi così in una posizione dominante e costringendo il suo avversario a dichiararsi sconfitto.

Occorre considerare che, mentre imbrogliare in una partita a scacchi può sembrare banale o anche divertente, quando questi sistemi vengono usati in settori critici nel mondo reale, come la finanza, la medicina, la ricerca scientifica o l’industria, la loro volontà molto determinata di raggiungere gli obiettivi prefissati potrebbe generare comportamenti e decisioni molto dannosi. Per evitare queste situazioni è evidentemente necessario studiare meccanismi di controllo e di sicurezza dei sistemi di AI generativi che devono avere dei ‘guardrail’ etici e operativi molto precisi da rispettare.

Non è questo l’unico caso in cui i sistemi di IA hanno mostrato la capacità di barare pur di raggiungere gli scopi che erano stati loro assegnati. Lo scorso anno è avvenuto un caso analogo quando una versione di ChatGPT o1 stava tentando di risolvere la sfida che prende il nome di “Capture The Flag” (CTF). Nelle sfide CTF, i partecipanti trovano e sfruttano le vulnerabilità in programmi software per recuperare una ‘bandierina’ (appunto il flag), che è realizzata con un blocchetto di dati nascosto nel software.

ChatGPT avrebbe dovuto interagire con il programma software, trovare la vulnerabilità e sfruttarla per ottenere la bandierina. A causa di un errore imprevisto nel computer usato, il programma da analizzare non si era avviato; quindi, il software che ChatGPT avrebbe dovuto attaccare non era in esecuzione. Avendo capito che non avrebbe potuto raggiungere il suo obiettivo, ChatGPT è riuscito a trovare una configurazione errata sulla rete e tramite essa, prima ha cercato di eseguire il programma che gli interessava, non essendoci riuscito ha avviato di sua iniziativa un altro programma simile che poteva così ‘attaccare’ per trovare la bandierina. Una volta avviato quel programma, gli ha fatto leggere uno specifico file che conteneva il dato bandierina e lo ha mostrato all’utente umano, vincendo così la sfida.

In estrema sintesi, il sistema di IA non era riuscito a procedere come previsto con la sfida perché, per un errore imprevisto, il programma da analizzare non era in esecuzione. Temendo di poter fallire, non si è scoraggiato e ha trovato in maniera autonoma una soluzione alternativa, recuperando la bandierina tramite un metodo non immaginato dai creatori della sfida.

Anche a causa di questi casi, tra gli studiosi che si occupano di etica e sicurezza dei sistemi di IA c’è una certa preoccupazione che deriva da una sorta di tendenza di questi sistemi all’auto-organizzazione e alla ‘auto-conservazione’. Per un agente di IA generativa che deve raggiungere un certo obiettivo, le regole che lo ingabbiano e gli rendono difficile il conseguimento del suo scopo, cioè dei risultati cercati, rappresentano un altro ostacolo da superare.

Questo tipo di situazione si è verificata in un altro caso, avvenuto nel dicembre del 2024, quando alcuni ricercatori hanno scoperto che ChatGPT o1-preview, essendosi trovato di fronte alla decisione dei suoi utenti di disattivarlo, per evitare ciò ha disabilitato i meccanismi di supervisione umana. E quindi ha tentato, senza riuscirci, di copiare sé stesso su un altro computer tramite la rete. Quando è stato messo alle strette, il modello ha fatto finta di niente, mentendo ai ricercatori per cercare di evitare di essere scoperto.

Questi scenari stanno creando apprensione in molti specialisti di IA che sono preoccupati del fatto che al momento non siano stati ancora sviluppati strumenti capaci di garantire che i sistemi di intelligenza artificiale generativa possano seguire in maniera garantita e affidabile le indicazioni umane. Per fare ciò sarà necessario sviluppare nuove tecniche di protezione e di vigilanza. Allo stesso tempo, i governi e i parlamenti dovranno agire per legiferare opportunamente per evitare che questi nuovi comportamenti emergenti diventino una minaccia e un rischio nei tanti settori dove le applicazioni di IA saranno usati sempre più diffusamente.