La traiettoria dello sviluppo dell’intelligenza artificiale negli ultimi anni sembra dominata da una logica quasi ossessiva: più grande è meglio. I modelli linguistici di grandi dimensioni (LLMs), con centinaia di miliardi di parametri, sono diventati l’emblema di un’AI capace di avvicinarsi alla comprensione umana. Ma la crescita vertiginosa del settore degli AI agents – sistemi che non si limitano a generare testo ma coordinano strumenti, processi e decisioni – obbliga a riconsiderare questa equazione. Un recente lavoro di NVIDIA Research (Small Language Models are the Future of Agentic AI, giugno 2025) porta un messaggio controcorrente ma convincente: non saranno i modelli giganteschi a costituire la spina dorsale dell’AI agentica, bensì i modelli piccoli, specializzati e distribuiti, i cosiddetti Small Language Models (SLMs).
Per anni si è pensato che solo aumentando i parametri si potessero ottenere capacità cognitive di livello superiore. Eppure la realtà empirica racconta una storia diversa. I progressi negli SLMs dimostrano che un modello con meno di 10 miliardi di parametri, se ben addestrato e ottimizzato, può raggiungere prestazioni paragonabili a modelli dieci volte più grandi. Esempi concreti abbondano: il Phi-3 Small di Microsoft (7 miliardi di parametri) ottiene risultati in comprensione e generazione di codice simili a modelli da 70 miliardi; la serie Nemotron-H di NVIDIA raggiunge accuratezza nelle istruzioni e nel code generation comparabile a modelli ben più pesanti; la famiglia SmolLM2 di HuggingFace ha dimostrato performance in ragionamento e tool calling in linea con modelli da 14 miliardi. Addirittura, soluzioni come DeepSeek-R1-Distill hanno superato modelli proprietari di fascia alta (Claude 3.5 e GPT-4o) in compiti di ragionamento comune. La conclusione è chiara: negli agenti intelligenti, che scompongono problemi complessi in sotto-attività ripetitive e ben definite, non serve l’onniscienza di un LLM. Basta un modello compatto, efficiente e focalizzato.
Il secondo argomento a favore degli SLMs è di natura economica e infrastrutturale. Addestrare, mantenere e far girare un LLM richiede enormi risorse computazionali ed energetiche. I data center globali hanno assorbito nel solo 2024 oltre 57 miliardi di dollari di investimenti legati a LLM e il loro impatto ambientale è in crescita costante. Al contrario, eseguire un SLM è da 10 a 30 volte meno costoso in termini di latenza, consumo energetico e capacità di calcolo. Questo non significa solo riduzione di costi per le aziende: significa anche maggiore sostenibilità ambientale, minore concentrazione di potere nei colossi del cloud e possibilità di portare capacità avanzate su dispositivi personali. Esempi come ChatRTX, capace di eseguire SLMs in tempo reale su GPU consumer, mostrano come l’inferenza locale possa diventare una pratica diffusa.
L’adozione degli SLMs non è solo una scelta tecnica: è una trasformazione culturale. Significa ribaltare l’immaginario che associa intelligenza solo alla “grandezza”. In un mondo in cui la maggior parte delle operazioni degli agenti intelligenti è ristretta e ripetitiva – dall’analisi di dati strutturati alla generazione di messaggi formattati – è illogico delegare tutto a modelli generali e pesantissimi. Inoltre, la natura modulare degli agenti permette una composizione eterogenea: SLMs per le attività quotidiane, LLMs per compiti eccezionali che richiedono ragionamento ampio o conversazione aperta. Una sorta di ecosistema digitale ibrido, in cui il piccolo diventa la norma e il grande l’eccezione.
C’è anche una questione di governance e di etica pubblica. Gli SLMs abbassano le barriere d’ingresso, permettendo a PMI, enti pubblici, università e comunità scientifiche di sviluppare agenti autonomi senza dipendere da infrastrutture monopolistiche. Questa democratizzazione apre la strada a una maggiore pluralità di prospettive, riducendo il rischio di bias sistemici e rendendo l’AI più aderente alle esigenze locali. In Europa, dove il tema della sovranità digitale è cruciale, gli SLMs rappresentano una chance concreta per evitare la completa dipendenza da pochi attori globali. Non si tratta solo di economia o efficienza, ma di indipendenza tecnologica e di tutela dei diritti collettivi.
Perché allora gli SLMs non hanno ancora conquistato la scena? Le ragioni sono tre. Primo, l’enorme capitale già investito negli LLMs, che rende difficile un cambio di rotta industriale. Secondo, i benchmark di valutazione, spesso generalisti, che penalizzano i modelli piccoli. Terzo, la scarsa comunicazione: gli SLMs non godono della stessa visibilità mediatica e del marketing massiccio che accompagna i giganti come GPT o Claude. Si tratta però di ostacoli contingenti, non di limiti intrinseci. Una volta che i vantaggi economici e ambientali diverranno più evidenti, è probabile che l’inerzia attuale lasci spazio a un nuovo equilibrio.
Il paper di NVIDIA mette in discussione una convinzione diffusa: che il futuro dell’intelligenza artificiale risieda solo nei modelli mastodontici. Al contrario, gli SLMs offrono un’alternativa concreta, più sostenibile e più vicina alle reali esigenze operative degli agenti intelligenti. In un’epoca in cui la retorica della “crescita infinita” mostra i suoi limiti, la lezione è evidente: la vera innovazione non è inseguire il gigantismo, ma saper fare di più con meno. L’intelligenza artificiale del futuro sarà giudicata non dal numero di parametri, ma dalla capacità di servire in modo efficiente, equo e sostenibile le società umane.