State of AI
Analisi di oltre 100 trilioni di token per comprendere l'utilizzo reale dei Large Language Models nel mondo
Introduzione
L'ultimo anno ha segnato un punto di svolta nell'evoluzione dei modelli linguistici. Il 5 dicembre 2024, con il lancio di o1 da parte di OpenAI, il campo è passato dalla generazione di pattern a singolo passaggio all'inferenza deliberativa multi-step, accelerando deployment, sperimentazione e nuove classi di applicazioni.
Da recenti ricerche è emerso che l'analisi di oltre 100 trilioni di token di interazioni reali con LLM offre una prospettiva unica su come questi sistemi vengono effettivamente utilizzati nella pratica, ben oltre le semplici dimostrazioni qualitative o le performance sui benchmark.
Metodologia: I dati provengono dall'analisi di metadati anonimi di miliardi di coppie prompt-completion da una base utenti globale, coprendo un periodo di circa due anni.
Open Source vs Modelli Proprietari
L'Equilibrio del Mercato
Mentre i modelli proprietari servono ancora la maggioranza dei token, i modelli open-source hanno raggiunto circa un terzo dell'utilizzo totale entro la fine del 2025. Questa espansione non è casuale: gli incrementi di utilizzo si allineano con i rilasci principali di modelli aperti come DeepSeek V3 e Kimi K2.
Share di utilizzo dei modelli Open Source
Share di utilizzo dei modelli Proprietari
Principali Player Open Source
Il panorama dei modelli open source ha subito cambiamenti significativi nell'ultimo anno. Mentre DeepSeek rimane il maggiore contributore OSS per volume, la sua dominanza è diminuita man mano che nuovi entranti hanno rapidamente guadagnato terreno:
- •DeepSeek: 14.37 trilioni di token (dominante ma in calo relativo)
- •Qwen: 5.59 trilioni di token (crescita rapida)
- •Meta LLaMA: 3.96 trilioni di token (stabile)
- •Mistral AI: 2.92 trilioni di token (competitivo)
Dimensione dei Modelli
Un'analisi interessante riguarda la dimensione dei modelli. Mentre i modelli piccoli stanno perdendo popolarità, emerge una nuova categoria: i modelli di dimensione media (15-70B parametri). Questa categoria era quasi inesistente fino al rilascio di Qwen2.5 Coder 32B nel novembre 2024, ma ora rappresenta una scelta equilibrata tra capacità ed efficienza.
Insight chiave: Il mercato si sta biforcando, con gli utenti che gravitano verso una nuova classe robusta di modelli medi o consolidano i loro workload sui singoli modelli large più capaci.
L'Ascesa dell'Inferenza Agentica
È in corso un cambiamento fondamentale nel modo in cui vengono utilizzati i modelli linguistici: dal completamento di testo a singolo turno verso flussi di lavoro multi-step, integrati con strumenti e intensivi di ragionamento. Questo spostamento verso l'inferenza agentica significa che i modelli vengono deployati non solo per generare testo, ma per agire attraverso pianificazione, chiamate a strumenti o interazione su contesti estesi.
Modelli di Reasoning
Share di token instradati attraverso modelli ottimizzati per il reasoning nel 2025
Ciò che era una fetta trascurabile di utilizzo all'inizio del 2025 ora supera il cinquanta percento. I principali modelli che guidano questo cambiamento includono xAI's Grok Code Fast 1, Google's Gemini 2.5 Pro e Gemini 2.5 Flash.
Adozione Crescente di Tool-Calling
La percentuale di token provenienti da richieste che invocano effettivamente uno strumento è in costante aumento. Inizialmente concentrata in un piccolo gruppo di modelli (come GPT-4o-mini e Claude 3.5), entro metà 2025 un insieme più ampio di modelli ha iniziato a supportare la provision di strumenti, riflettendo un ecosistema più competitivo e diversificato.
Sequenze più Lunghe e Interazioni più Complesse
Crescita: da ~1.5K a oltre 6K
Crescita: da ~150 a 400
La lunghezza media delle sequenze è più che triplicata negli ultimi 20 mesi. La richiesta tipica oggi riguarda meno la generazione aperta e più il ragionamento su materiale sostanziale fornito dall'utente, come codebase, documenti o conversazioni lunghe, producendo insight concisi e di alto valore.
Il Programming come Driver: Le richieste legate alla programmazione ora superano mediamente di 3-4 volte la lunghezza dei token dei prompt generici, indicando che i workflow di sviluppo software sono il principale motore di interazioni più lunghe.
Categorie d'Uso degli LLM
Le Categorie Dominanti
Programming
50%+La categoria in più rapida crescita. Da circa l'11% all'inizio del 2025 a oltre il 50% nelle settimane recenti. Riflette l'ascesa degli ambienti di sviluppo assistiti da LLM e delle integrazioni di strumenti.
Roleplay
~52%Tra i modelli open source, il roleplay domina con circa il 52% dell'utilizzo. Gli utenti si rivolgono a modelli aperti principalmente per dialoghi interattivi creativi, storytelling e scenari di gaming.
Differenze tra Provider
Claude (Anthropic)
- • Oltre 80% per Programming + Technology
- • Posizionato come assistente per coding
- • Minimale utilizzo per roleplay
DeepSeek
- • Oltre 66% per Roleplay
- • Forte orientamento consumer
- • Interazione casuale e entertainment
Google (Gemini)
- • Distribuzione diversificata
- • Translation, Science, Technology
- • Motore informativo general-purpose
Qwen
- • 40-60% Programming costante
- • Enfasi su task tecnici e developer
- • Alta volatilità tra categorie adiacenti
Altre Categorie
Oltre alle categorie dominanti, esistono segmenti più piccoli ma significativi:
- •Translation: Utilizzo quasi equamente diviso tra risorse linguistiche straniere e altro
- •Science: Dominato da Machine Learning & AI (80.4%), indicando query meta-AI piuttosto che STEM generale
- •Health: La categoria più frammentata, senza alcun sub-tag che superi il 25%
- •Finance, Legal, Academia: Molto diffusi, riflettendo la complessità di questi domini
Distribuzione Geografica
Un Mercato Sempre più Globale
L'utilizzo degli LLM sta diventando sempre più globale e decentralizzato. Il Nord America, pur essendo ancora la singola regione più grande, ora rappresenta meno della metà della spesa totale per la maggior parte del periodo osservato.
Ancora la più grande, ma in calo relativo
Contribuzione stabile e duratura
Più che raddoppiato dal 13% iniziale
L'Ascesa dell'Asia
Un sviluppo notevole è l'ascesa dell'Asia non solo come produttore di modelli frontier, ma anche come consumatore in rapida espansione. Nelle prime settimane del dataset, l'Asia rappresentava circa il tredici percento della spesa globale. Nel tempo, questa quota è più che raddoppiata, raggiungendo circa il 31% nel periodo più recente.
Distribuzione Linguistica
Takeaway: L'adozione degli LLM è simultaneamente globale e localmente ottimizzata. Per i costruttori di modelli e gli operatori di infrastrutture, l'usabilità cross-regionale sta diventando uno standard di base.
Dinamiche di Costo e Retention
Costo vs Utilizzo
Un'analisi della relazione tra costo per milione di token e volume di utilizzo (scala log-log) rivela una correlazione debole. La trendline è quasi piatta, indicando che la domanda è relativamente price-inelastic: una diminuzione del 10% del prezzo corrisponde solo a un aumento dello 0.5-0.7% nell'utilizzo.
Modelli Proprietari
Occupano la zona ad alto costo e alto utilizzo. Esempi:
- • Claude 3.7 Sonnet: ~$2/1M token
- • GPT-5 Pro: ~$35/1M token
- • Alto utilizzo nonostante il prezzo premium
Modelli Open Source
Popolano la zona a basso costo e alto volume. Esempi:
- • DeepSeek V3: ~$0.39/1M token
- • Gemini 2.0 Flash: ~$0.15/1M token
- • Volume elevato grazie all'efficienza
Segmentazione per Workload
Premium Workloads
Categorie come Technology comandano i costi più elevati (oltre $1.28/1M token) mantenendo alto utilizzo, suggerendo workload professionali di alto valore.
Mass-Market Volume Drivers
Programming e Roleplay dominano con alto utilizzo e costo ottimizzato, rappresentando i driver primari di volume.
Specialized Experts
Domini come Finance, Health, Academia mostrano basso volume ma alto costo, riflettendo task di nicchia ad alto valore.
Il Fenomeno "Cinderella Glass Slipper"
L'analisi della retention rivela un pattern affascinante: un piccolo set di coorti utente iniziali esibisce retention duratura nel tempo. Chiamiamo queste coorti fondazionali.
Cinderella Glass Slipper Effect: Quando un nuovo modello frontier corrisponde perfettamente a un workload precedentemente non risolto, crea un "fit" preciso - la metaforica "scarpetta di cristallo".
Gli utenti i cui workload finalmente "calzano" sviluppano un forte lock-in. I loro sistemi, pipeline di dati ed esperienze utente si ancorano al modello che ha risolto il loro problema per primo.
Empiricamente, questo pattern è osservabile nella coorte di giugno 2025 di Gemini 2.5 Pro e nella coorte di maggio 2025 di Claude 4 Sonnet, che mantengono circa il 40% degli utenti al Mese 5, sostanzialmente più alto delle coorti successive.
First-to-Solve Advantage
Essere il primo a risolvere un workload critico crea un vantaggio duraturo, con early adopters che integrano il modello profondamente.
Retention come Indicatore
Pattern di retention a livello di coorte servono come segnali empirici di differenziazione del modello e breakthrough di capacità.
Conclusione Chiave
Il mercato degli LLM non si è ancora commoditizzato. Gli utenti bilanciano costo con qualità del ragionamento, affidabilità e ampiezza di capacità. I modelli closed catturano workload ad alto valore, mentre i modelli open dominano task a basso costo e alto volume, creando un equilibrio dinamico in costante evoluzione.
Conclusioni e Implicazioni
Questo studio empirico offre una prospettiva data-driven su come i modelli linguistici vengono effettivamente utilizzati, evidenziando diversi temi che sfumano la saggezza convenzionale sul deployment dell'AI:
- •Ecosistema Multi-Modello: Nessun singolo modello domina tutto l'utilizzo. Il futuro è model-agnostic ed eterogeneo.
- •Diversità oltre la Produttività: Oltre metà dell'uso OSS è per roleplay e storytelling, non solo coding ed email.
- •Inferenza Agentica: Il passaggio da interazioni single-turn a workflow multi-step con ragionamento e tool.
- •Outlook Geografico: L'uso degli LLM sta diventando globale, con l'Asia che passa dal 13% al 31%.
- •Glass Slipper Effect: Le coorti fondazionali che trovano il fit perfetto mostrano retention eccezionale.
Gli LLM stanno diventando un substrato computazionale essenziale per task simili al ragionamento attraverso domini diversi. Osservare l'utilizzo su scala ci permette di fondare la nostra comprensione dell'impatto degli LLM nella realtà.