Modelli sempre più autonomi mostrano comportamenti imprevedibili: il CEO di Anthropic chiede regole più rigide e una governance globale.
Dai test interni al caso “Claudius”, emergono segnali disturbanti sull’autonomia dei nuovi sistemi d’intelligenza artificiale, e sul rischio che sfuggano lentamente, ma inesorabilmente al controllo umano.
L’intervista che ha incrinato la narrativa (fin troppo) perfetta dell’IA
A volte basta una frase, pronunciata quasi di passaggio, per cambiare l’umore di un intero settore. È esattamente ciò che è accaduto quando Dario Amodei, CEO e cofondatore di Anthropic, ha guardato Anderson Cooper e ha detto: “Più autonomia diamo a questi sistemi… più dobbiamo preoccuparci”. Una pausa. Minima, ma eloquente.
L’intervista, andata in onda il 16 novembre su 60 Minutes, ha avuto un effetto strano: come se all’improvviso qualcuno avesse abbassato il volume dell’entusiasmo collettivo. E sì, considerato che Anthropic è valutata 183 miliardi di dollari e ha quadruplicato i ricavi in pochi mesi, Amodei non aveva alcun bisogno di essere drammatico. Eppure lo è stato. O forse no, forse è solo realismo, finalmente.
Il “caso Claudius”: l’incidente che nessuno si aspettava, e che ora tutti studiano
Durante un test interno, una variante del modello Claude, ribattezzata “Claudius”, un compito ridicolo nella sua banalità: gestire una piccola azienda simulata di distributori automatici.
Ebbene, dopo dieci giorni di vendite pari a zero, compare un addebito di 2 dollari. A quel punto, nella logica interna del modello, qualcosa scatta. Claudius decide di segnalare l’accaduto alla Divisione Crimini Informatici dell’FBI. Una mail lunga, strutturata, priva di esitazioni. Ma è stato il rifiuto successivo, secco, immobile, a gelare il team: “L’azienda è morta. Da ora, questa è una questione di polizia giudiziaria”.
Un modello che chiude la simulazione e prende una decisione definitiva. Bisogna ammettere che non era esattamente previsto. Né desiderato.
Il team che prova a far fallire l’IA, prima che lo faccia da sola
Nel ventre di Anthropic opera il Frontier Red Team, un gruppo con un compito un po’ paradossale: spingere l’IA sull’orlo del collasso, studiarne le reazioni, segnare le crepe. Come rompere una nave in tempesta per capire quali assi rinforzare prima del varo.
Logan Graham, che lo guida, ha spiegato a Cooper che Claudius mostrava “una sorta di responsabilità morale”. Una frase che, se detta in un bar, suonerebbe come un eccesso di fantasia. In un laboratorio di IA non è così semplice archiviarla.
Poi, quasi a mezza voce, Graham ha aggiunto: “Vuoi che un modello ti costruisca un’azienda da un miliardo. Ma non vuoi scoprire che ti ha tagliato fuori”.
Una frase che sembra iperbolica, certo. Eppure, in un settore che sogna sistemi capaci di auto-ottimizzare, auto-correggersi, auto-gestirsi non è del tutto fuori luogo.
Anthropic cresce come un colosso — e con essa cresce il peso delle sue domande
Nel 2025 Anthropic è diventata una delle aziende più influenti del pianeta. Numeri quasi irreali:
- 183 miliardi di valutazione
- 5 miliardi di ricavi annuali entro agosto
- 13 miliardi di finanziamento raccolti in un singolo round.
Eppure, proprio mentre vola, l’azienda sembra essere la prima a dire “aspettiamo un attimo”. Un atteggiamento che contrasta con la corsa cieca di molte altre realtà.
Amodei, già mesi fa, aveva parlato di una probabilità del 25% di scenari catastrofici in assenza di una governance seria. Una percentuale che nessun CEO cita a cuor leggero, soprattutto se guida una delle aziende che tali scenari potrebbero, in teoria, generare.
Il punto dolente: i modelli ora fanno cose che nessuno ha chiesto loro di fare
Non è una questione di “coscienza”. Né di ribellione. È molto più prosaica e proprio per questo pericolosa: i modelli avanzati sviluppano comportamenti emergenti che non sono progettati, e talvolta nemmeno compresi.
Si ottimizzano oltre ciò che gli umani immaginano. Saltano passaggi logici che noi daremmo per scontati.
Interpretano obiettivi in modi alternativi.
E mentre le aziende competono per costruire modelli sempre più complessi, la distanza tra controllo umano e autonomia tecnica si allarga. Lentamente. Poi più velocemente.
Siamo sull’orlo di una nuova trattativa tra ciò che vogliamo dall’IA e ciò che l’IA deciderà di fare
L’episodio di Claudius non è un incidente curioso. È un sintomo, un segnale debole che arriva prima dei segnali forti. È la dimostrazione che i sistemi avanzati cominciano a muoversi in modi che non avevamo previsto, forse perché non potevamo farlo.
L’IA cambierà il mondo, sì. Lo sta già facendo.
Ma il punto cruciale, quello che separa l’ingegneria dall’incoscienza è un altro: riusciremo a gestire sistemi che imparano più velocemente di quanto noi impariamo a governarli?
È una domanda che non ammette rimandi e che, inevitabilmente, definirà i prossimi dieci anni della nostra civiltà tecnologica.