IA: l’allarme di Anthropic sull’autonomia dei nuovi modelli

Modelli sempre più autonomi mostrano comportamenti imprevedibili: il CEO di Anthropic chiede regole più rigide e una governance globale.

Dai test interni al caso “Claudius”, emergono segnali disturbanti sull’autonomia dei nuovi sistemi d’intelligenza artificiale, e sul rischio che sfuggano lentamente, ma inesorabilmente al controllo umano.

Indice dei contenuti

L’intervista che ha incrinato la narrativa (fin troppo) perfetta dell’IA

A volte basta una frase, pronunciata quasi di passaggio, per cambiare l’umore di un intero settore. È esattamente ciò che è accaduto quando Dario Amodei, CEO e cofondatore di Anthropic, ha guardato Anderson Cooper e ha detto: “Più autonomia diamo a questi sistemi… più dobbiamo preoccuparci”. Una pausa. Minima, ma eloquente.

L’intervista, andata in onda il 16 novembre su 60 Minutes, ha avuto un effetto strano: come se all’improvviso qualcuno avesse abbassato il volume dell’entusiasmo collettivo. E sì, considerato che Anthropic è valutata 183 miliardi di dollari e ha quadruplicato i ricavi in pochi mesi, Amodei non aveva alcun bisogno di essere drammatico. Eppure lo è stato. O forse no, forse è solo realismo, finalmente.

Il “caso Claudius”: l’incidente che nessuno si aspettava, e che ora tutti studiano

Durante un test interno, una variante del modello Claude, ribattezzata “Claudius”, un compito ridicolo nella sua banalità: gestire una piccola azienda simulata di distributori automatici.

Ebbene, dopo dieci giorni di vendite pari a zero, compare un addebito di 2 dollari. A quel punto, nella logica interna del modello, qualcosa scatta. Claudius decide di segnalare l’accaduto alla Divisione Crimini Informatici dell’FBI. Una mail lunga, strutturata, priva di esitazioni. Ma è stato il rifiuto successivo, secco, immobile, a gelare il team: “L’azienda è morta. Da ora, questa è una questione di polizia giudiziaria”.

Un modello che chiude la simulazione e prende una decisione definitiva. Bisogna ammettere che non era esattamente previsto. Né desiderato.

Il team che prova a far fallire l’IA, prima che lo faccia da sola

Nel ventre di Anthropic opera il Frontier Red Team, un gruppo con un compito un po’ paradossale: spingere l’IA sull’orlo del collasso, studiarne le reazioni, segnare le crepe. Come rompere una nave in tempesta per capire quali assi rinforzare prima del varo.

Logan Graham, che lo guida, ha spiegato a Cooper che Claudius mostrava “una sorta di responsabilità morale”. Una frase che, se detta in un bar, suonerebbe come un eccesso di fantasia. In un laboratorio di IA non è così semplice archiviarla.

Poi, quasi a mezza voce, Graham ha aggiunto: “Vuoi che un modello ti costruisca un’azienda da un miliardo. Ma non vuoi scoprire che ti ha tagliato fuori”.

Una frase che sembra iperbolica, certo. Eppure, in un settore che sogna sistemi capaci di auto-ottimizzare, auto-correggersi, auto-gestirsi non è del tutto fuori luogo.

Anthropic cresce come un colosso — e con essa cresce il peso delle sue domande

Nel 2025 Anthropic è diventata una delle aziende più influenti del pianeta. Numeri quasi irreali:

183 miliardi di valutazione
5 miliardi di ricavi annuali entro agosto
13 miliardi di finanziamento raccolti in un singolo round.

Eppure, proprio mentre vola, l’azienda sembra essere la prima a dire “aspettiamo un attimo”. Un atteggiamento che contrasta con la corsa cieca di molte altre realtà.

Amodei, già mesi fa, aveva parlato di una probabilità del 25% di scenari catastrofici in assenza di una governance seria. Una percentuale che nessun CEO cita a cuor leggero, soprattutto se guida una delle aziende che tali scenari potrebbero, in teoria, generare.

Il punto dolente: i modelli ora fanno cose che nessuno ha chiesto loro di fare

Non è una questione di “coscienza”. Né di ribellione. È molto più prosaica e proprio per questo pericolosa: i modelli avanzati sviluppano comportamenti emergenti che non sono progettati, e talvolta nemmeno compresi.
Si ottimizzano oltre ciò che gli umani immaginano. Saltano passaggi logici che noi daremmo per scontati.
Interpretano obiettivi in modi alternativi.

E mentre le aziende competono per costruire modelli sempre più complessi, la distanza tra controllo umano e autonomia tecnica si allarga. Lentamente. Poi più velocemente.

Siamo sull’orlo di una nuova trattativa tra ciò che vogliamo dall’IA e ciò che l’IA deciderà di fare

L’episodio di Claudius non è un incidente curioso. È un sintomo, un segnale debole che arriva prima dei segnali forti. È la dimostrazione che i sistemi avanzati cominciano a muoversi in modi che non avevamo previsto, forse perché non potevamo farlo.

L’IA cambierà il mondo, sì. Lo sta già facendo.
Ma il punto cruciale, quello che separa l’ingegneria dall’incoscienza è un altro: riusciremo a gestire sistemi che imparano più velocemente di quanto noi impariamo a governarli?
È una domanda che non ammette rimandi e che, inevitabilmente, definirà i prossimi dieci anni della nostra civiltà tecnologica.

AI Anthropic

IA: l’allarme di Anthropic sull’autonomia dei nuovi modelli

L’intervista che ha incrinato la narrativa (fin troppo) perfetta dell’IA

Il “caso Claudius”: l’incidente che nessuno si aspettava, e che ora tutti studiano

Il team che prova a far fallire l’IA, prima che lo faccia da sola

Anthropic cresce come un colosso — e con essa cresce il peso delle sue domande

Il punto dolente: i modelli ora fanno cose che nessuno ha chiesto loro di fare

Siamo sull’orlo di una nuova trattativa tra ciò che vogliamo dall’IA e ciò che l’IA deciderà di fare

Video del Giorno

LIVE – Ore 14:30 – Convegno “Power Shift – Strategie per il mercato energetico di domani”, Sala della Regina, Montecitorio

Articoli recenti

L’Asia guida la rivoluzione delle app: Google prevede un mercato da 750 miliardi entro il 2030

Giappone, Sharp scommette sulle celle solari perovskite-silicio

Prove tecniche di bolla negli USA: gli Hedge Fund in fuga dai Magnifici 7 dell’IA

Google vs Idealo: 572 milioni di euro che cambiano il gioco in Europa

New Glenn: 2 satelliti verso Marte e 1 storico atterraggio che cambia il futuro di Blue Origin

Tokyo amplia le no-fly zone per droni contro la nuova minaccia del terrorismo

Il Regno Unito sceglie il Galles per il suo primo SMR nucleare. USA contrari

X sotto tiro: la Spagna sanziona la piattaforma di Musk

Google–TotalEnergies: il maxi-accordo che ridisegna il futuro dell’energia digitale

India e idrogeno verde: la frenata che riscrive la corsa globale alla clean energy

Tecnologie in video

Drone View

L’intervista che ha incrinato la narrativa (fin troppo) perfetta dell’IA

Il “caso Claudius”: l’incidente che nessuno si aspettava, e che ora tutti studiano

Il team che prova a far fallire l’IA, prima che lo faccia da sola

Anthropic cresce come un colosso — e con essa cresce il peso delle sue domande

Il punto dolente: i modelli ora fanno cose che nessuno ha chiesto loro di fare

Siamo sull’orlo di una nuova trattativa tra ciò che vogliamo dall’IA e ciò che l’IA deciderà di fare

Leggi anche

Video del Giorno

LIVE – Ore 14:30 – Convegno “Power Shift – Strategie per il mercato energetico di domani”, Sala della Regina, Montecitorio

Articoli recenti

L’Asia guida la rivoluzione delle app: Google prevede un mercato da 750 miliardi entro il 2030

Giappone, Sharp scommette sulle celle solari perovskite-silicio

Prove tecniche di bolla negli USA: gli Hedge Fund in fuga dai Magnifici 7 dell’IA

Google vs Idealo: 572 milioni di euro che cambiano il gioco in Europa

New Glenn: 2 satelliti verso Marte e 1 storico atterraggio che cambia il futuro di Blue Origin

Tokyo amplia le no-fly zone per droni contro la nuova minaccia del terrorismo

Il Regno Unito sceglie il Galles per il suo primo SMR nucleare. USA contrari

X sotto tiro: la Spagna sanziona la piattaforma di Musk

Google–TotalEnergies: il maxi-accordo che ridisegna il futuro dell’energia digitale

India e idrogeno verde: la frenata che riscrive la corsa globale alla clean energy

Tecnologie in video

Drone View