“Menti, codici e fantasmi” è un podcast di cibernetica e intelligenza artificiale.
Questo è il secondo episodio, dove parlo di cosa sono davvero i token, di come funzionano e cosa c’entrano con Mary Shelley e Pierre Klossowski.
La trascrizione interattiva, realizzata dalla IA di Substack, contiene piccole imprecisioni, dovute in buona parte alla mia pronuncia e in piccola al fatto che il sistema non è ancora così intelligente. In compenso, vi permette di spostarvi “al volo” nel punto dell’episodio che più vi interessa.
Il podcast è registrato con un lavalier Boya Mini 2, prodotto con Reaper sotto Linux EndeavourOS e la breve composizione finale è realizzata con Google Gemini Lyria 3.
Qui sotto trovate il testo completo dell’episodio, bibliografia, note e sitografia e lo spazio per i vostri commenti.
Nel 1818, Mary Shelley scrive quella che mi sembra una delle pagine più belle mai dedicate al linguaggio e la mette in bocca a un mostro.
La creatura del dottor Frankenstein è nascosta in un tugurio e spia una famiglia attraverso una fessura nel muro, li osserva da settimane. Non capisce una parola di ciò che dicono. Ma capisce, che quelle parole fanno qualcosa — producono sorrisi, lacrime, reazioni. E si sforza di provare a imparare.
Duecento anni dopo, le intelligenze artificiali affrontano esattamente lo stesso problema della creatura di Shelley e lo superano applicando una soluzione radicalmente diversa.
Partiamo dall’inizio. Quando scrivete un messaggio a ChatGPT, a Claude o a Gemini il testo che scrivete non arriva al modello così com’è. Non viene percepito come successione di parole, ma come successione di token.
Un token è un frammento di testo. A volte coincide con una parola intera. A volte è un pezzo di parola. A volte è un singolo carattere, uno spazio, un segno di punteggiatura. La parola “intelligenza”, per esempio, non è un token unico: viene spezzata in pezzi. Qualcosa come “intellig” e “enza”. La parola “il”, invece, è un token solo. E la parola “elettroencefalogramma” viene fatta a brandelli piccoli piccoli.
Ora, la domanda ovvia è: perché? Perché non usare semplicemente le parole? O le lettere?
La risposta sta in un algoritmo che ha una storia curiosa. Si chiama Byte Pair Encoding — BPE — e non è nato per il linguaggio. È nato per comprimere dati. Lo ha inventato un programmatore di nome Philip Gage, che nel febbraio del 1994 pubblica un articolo su una rivista chiamata The C Users Journal. Il titolo è modesto: “A New Algorithm for Data Compression”. L’idea è molto semplice. Prendi un testo. Cerca la coppia di byte adiacenti che compare più spesso. Sostituiscila con un simbolo nuovo. Ripeti. È tutto qui.
Gage non stava pensando al linguaggio. Stava pensando a come rendere i file più piccoli. Ma ventidue anni dopo, nel 2016, tre ricercatori dell’Università di Edimburgo — Rico Sennrich, Barry Haddow e Alexandra Birch — prendono quell’algoritmo e lo applicano alla traduzione automatica neurale. Il loro paper si intitola “Neural Machine Translation of Rare Words with Subword Units” e cambia tutto. Perché dimostrano che se spezzi le parole in sotto-unità usando BPE, il modello riesce a gestire parole che non ha mai visto. Parole rare. Nomi propri. Neologismi. Composti. Qualsiasi cosa.
Da quel momento, tutti i grandi modelli linguistici usano una versione di BPE per costruire il loro vocabolario. Oggi, il vocabolario di GPT-4 contiene circa centomila token. Centomila pezzi di linguaggio con cui il modello rappresenta tutto ciò che gli esseri umani possono dire.
Ed è qui che la storia diventa interessante. Perché il modo in cui BPE costruisce quel vocabolario ha una conseguenza profonda su come la macchina “vede” il linguaggio.
BPE non sa nulla di grammatica. Non sa nulla di significato. Non sa cosa siano un verbo, un sostantivo, un suffisso. Quello che sa fare è contare. Conta quali coppie di caratteri compaiono più spesso in un enorme corpo di testi — miliardi di parole — e le fonde insieme. Poi conta di nuovo. E fonde di nuovo. E così via, finché non raggiunge la dimensione di vocabolario desiderata.
Il risultato è che le parole più comuni dell’inglese — “the”, “and”, “is” — diventano token singoli. Sono efficienti. Una parola, un token. Ma le parole rare, le parole tecniche, le parole di lingue diverse dall’inglese — vengono frantumate. La stessa frase, scritta in inglese e in italiano, produce un numero diverso di token. L’italiano ne genera di più. L’arabo ancora di più. Il giapponese ancora di più. Questo significa che dire la stessa cosa costa di più in certe lingue che in altre. Ma su questo torneremo fra poco.
Per ora, quello che conta è questo: la macchina non legge parole, ma assembla schegge di parole. Frammenti che non hanno significato proprio — non sono morfemi, non sono sillabe, non sono nulla che un linguista riconoscerebbe come unità di senso.
Ed ecco che torniamo alla creatura del dottor Frankenstein.
La creatura è nascosta nel suo tugurio, accanto alla casa della famiglia De Lacey. Li osserva da settimane. E racconta:
«Non erano del tutto felici. Il giovane e la ragazza spesso si appartavano e li vedevo piangere. Non capivo la causa della loro infelicità, ma ne ero profondamente commosso. Se tali amabili creature erano tristi, non era strano che lo fossi anch’io, essere imperfetto e solo. Ma perché erano infelici? Che significavano le loro lacrime?
Pian piano feci una scoperta ancor più importante. Capii che quelle persone si comunicavano esperienze e sentimenti attraverso suoni articolati. Notai che quei suoni producevano piacere o pena, sorrisi o mestizia sul volto e nel cuore di chi li ascoltava. Questa era veramente un’arte degna degli dèi, e io desideravo appassionatamente impadronirmene. Parlavano velocemente, e le parole che producevano non avevano alcun rapporto evidente con gli oggetti reali, perciò io non riuscivo a trovare la chiave per penetrare il mistero delle loro corrispondenze.»
Ok, facciamo una pausa. Questa scena descrive con precisione sorprendente, due fasi distinte dell’apprendimento.
La prima è la correlazione. La creatura osserva che certi suoni producono certi effetti — sorrisi, lacrime, reazioni sul volto degli ascoltatori. Non capisce le parole, ma capisce che le parole fanno qualcosa. Che sono operazionali. Le parole hanno effetti nel mondo.
La seconda fase è il muro. Le parole astratte — quelle che “non avevano alcun rapporto evidente con gli oggetti reali” — restano opache. La creatura impara “fuoco”, “latte”, “pane”, “legna” — parole ancorate a cose visibili. Ma “buono”, “caro”, “infelice” — queste le riconosce senza capirle. Le distingue, dice Shelley, “without being able as yet to understand or apply them.”
Ora, un modello linguistico non fa esattamente questo. Ma la struttura del problema è la stessa. Il modello impara relazioni statistiche tra token — quali token tendono a comparire vicini, in quali sequenze, in quali contesti. Non ha accesso al mondo. Non vede il fuoco. Non sente il calore del latte. Non sa cosa sia il pane. Ma a forza di elaborare miliardi di frasi in cui queste parole compaiono, costruisce una mappa delle loro relazioni che è — ed è qui la cosa incredibile — funzionalmente potente. Il modello sa usare la parola “pane” in modi appropriati. Ma non l’ha mai assaggiato.
La creatura di Shelley è a metà strada. Ha un corpo. Sente il freddo, il calore, la fame. Ma il linguaggio lo impara come un modello di intelligenza artificiale: dall’esterno, per correlazione, senza che nessuno glielo insegni. Shelley, nel 1818, immagina un essere che impara il linguaggio senza essere umano. Più o meno duecento anni dopo, lo abbiamo costruito davvero.
Ora cerchiamo di approfondire un paio di concetti. Perché i token non sono tutti uguali e capirne le differenze significa capire come funziona — e soprattutto quanto costa — una conversazione con un’intelligenza artificiale.
Ci sono token di input: quelli che voi mandate al modello. La vostra domanda, il vostro documento, la vostra richiesta.
Ci sono token di output: quelli che il modello genera come risposta.
E poi ci sono i thinking token — i token di pensiero. Questi sono più recenti e più interessanti. In certi modelli, come Claude e Gemini, quando usa la modalità di pensiero esteso — il modello genera una catena di ragionamento interna prima di produrre la risposta. Questa catena è fatta di token. Token che vengono generati, che occupano spazio, che costano — ma che voi di solito non vedete. Questo dipende un po’ dall’interfaccia e dal che state usando.
Tutto questo avviene dentro quella che si chiama finestra contestuale — il context window. Immaginate una scrivania. Ha una dimensione finita. Tutto ciò che il modello può “tenere a mente” durante una conversazione — il vostro messaggio, la sua risposta, i messaggi precedenti, i documenti allegati — deve stare su quella scrivania. Se la scrivania si riempie, qualcosa cade. I modelli più recenti hanno finestre contestuali di milioni di token. Un milione di token corrisponde a circa settecentocinquantamila parole — più di tutta la trilogia del Signore degli Anelli. Ma, come sempre, le dimensioni non sono tutto. Più la scrivania è piena, più è difficile per il modello trovare l’informazione giusta al momento giusto. La memoria di lavoro si degrada. Tecnicamente, chiamiamo il fenomeno context rot — la putrefazione del contesto.
Ogni token — di input, di output, di pensiero — ha un prezzo. I modelli linguistici si pagano a token. Ad esmepio, Claude Opus, il modello più potente di Anthropic, costa cinque dollari per milione di token in input e venticinque dollari per milione in output. Il pensiero costa come l’output: venticinque dollari per milione.
Pensare a come risponderti, per una macchina, è cinque volte più costoso dell’ascoltarti.
Ora, se ogni parola che diciamo alla macchina viene scomposta in pezzi, e ogni pezzo ha un costo, e ogni pensiero che la macchina produce ha un costo — allora stiamo davvero facendo qualcosa che non ha precedenti.
Stiamo mettendo un prezzo sul linguaggio.
Non sul libro stampato, non sull’ora di lavoro del traduttore. Sul linguaggio stesso, nella sua grana più fine. Persino un pezzo di parola che di per sé non significa nulla, ha un suo prezzo preciso.
C’è un filosofo che ha pensato a lungo su cosa succede quando le cose viventi diventano moneta. Si chiama Pierre Klossowski. Nel 1970 pubblica La monnaie vivante — La moneta vivente — un libro che Michel Foucault definisce “il più grande libro del nostro tempo”. L’idea centrale è questa: nell’economia industriale, il corpo umano — con i suoi desideri, le sue pulsioni, i suoi fantasmi — diventa esso stesso una forma di valuta. Non viene comprato con il denaro: diventa denaro. La moneta vivente sostituisce la moneta inerte perché è fonte di sensazione, di emozione, di piacere. Oggi diremmo, produttrice di contenuti.
Sarebbe disonesto dire che Klossowski aveva previsto i token. Stava parlando di corpi, di desiderio, di economia pulsionale. Ma la traiettoria che disegna è comunque di una preveggenza impressionante.
Con Klossowski, il corpo diventava moneta. Con i modelli linguistici, è il linguaggio a diventare moneta. Se ci pensate bene, il linguaggio è la sola “cosa” più intima del corpo. Il linguaggio è ciò che ci fa esseri pensanti e comunicanti. E, nella nostra epoca, viene frammentato, pesato, prezzato.
E il prezzo è reale, non metaforico. Il prezzo è il Reale.
A questo proposito, c’è un ultimo dettaglio su cui vale la pena tornare
BPE costruisce il suo vocabolario contando frequenze. E i vocabolari dei grandi modelli sono addestrati prevalentemente su testi in inglese. La conseguenza è che l’inglese è la lingua più efficiente: le parole più comuni sono token singoli, costano poco. Le lingue con alfabeti diversi, morfologie complesse, strutture lontane dall’inglese — costano di più. Lo stesso concetto espresso in italiano, arabo o giapponese genera più token. Più token significa costi più alti e più spazio occupato nella finestra contestuale, quindi meno spazio a disposizione per ricordare, ragionare, rispondere.
Torniamo dove siamo partiti. Alla creatura nel suo tugurio.
Mary Shelley fa dire alla sua creatura che il linguaggio è “un’arte degna degli dèi”. E aveva ragione — era un’arte. Qualcosa di meraviglioso e gratuito, qualcosa che un bambino acquisisce senza che nessuno gli insegni la grammatica, qualcosa che la creatura impara mossa dal suo puro desiderio.
Oggi il linguaggio è anche una merce. Ha una grana, una misura, un prezzo al milione. I token sono i mattoni invisibili di ogni conversazione tra un essere umano e una macchina. E come tutti i mattoni, puoi usarlo per costruire un ponte o un muro di cinta.
Resta da vedere se quello che stiamo costruendo è ancora un’arte degna degli dèi.
Bibliografia e sitografia
Fonti primarie
Shelley, Mary W. (1818). Frankenstein, or the Modern Prometheus. London: Lackington, Hughes, Harding, Mavor & Jones. — Capitolo XII. Edizione originale disponibile su Lit2Go, University of South Florida.
Klossowski, Pierre (1970). La monnaie vivante. Paris: Éric Losfeld. — Ed. italiana: La moneta vivente, trad. e cura di Aldo Marroni, Milano: Mimesis, 2008.
Gage, Philip (1994). “A New Algorithm for Data Compression”. The C Users Journal, 12(2), pp. 23–38.
Sennrich, Rico; Haddow, Barry; Birch, Alexandra (2016). “Neural Machine Translation of Rare Words with Subword Units”. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), Vol. 1, pp. 1715–1725. Berlin. DOI: 10.18653/v1/P16-1162.
Fonti tecniche
Anthropic (2026). “Context Windows”. Claude API Documentation. platform.claude.com/docs/en/build-with-claude/context-windows.
Anthropic (2026). “Pricing”. Claude API Documentation. platform.claude.com/docs/en/about-claude/pricing.
Karpathy, Andrej. minbpe: Minimal, clean code for the Byte Pair Encoding (BPE) algorithm. github.com/karpathy/minbpe.
Hugging Face (s.d.). “Byte-Pair Encoding Tokenization”. LLM Course, Chapter 6. huggingface.co/learn/llm-course/en/chapter6/5.



