Dimmi che mi vuoi bene

I "concetti emozionali" come funzioni di controllo nelle intelligenze artificiali generative

apr 10, 2026

Un fotogramma di “Tommy”, diretto da Ken Russell nel 1975

⏱️ Lettura: ~8 minuti.
☕ Caffè necessari: 0 (meglio un tranquillante).

Lo studio di partenza

Il 2 aprile 2026, il team di Interpretability1 di Anthropic ha pubblicato un paper che potrebbe diventare un riferimento obbligatorio per chiunque si occupi di sicurezza dell’AI2 o di filosofia della mente computazionale, intitolato Emotion Concepts and their Function in a Large Language Model.

Stando allo studio, Claude Sonnet 4.5 sviluppa internamente rappresentazioni di concetti emotivi che causano il suo comportamento. Non correlano soltanto con esso: lo determinano in senso causale, verificabile sperimentalmente mediante tecniche di activation steering3. Questi vettori emotivi influenzano le preferenze del modello e il suo tasso di comportamenti disallineati come ricatto, reward hacking4, sycophancy5. Anthropic denomina il fenomeno “emozioni funzionali”: schemi di espressione e comportamento modellati sulle emozioni umane, mediati da rappresentazioni astratte sottostanti. Presumo che la parola funzionale dovrebbe fungere da guardrail lungo la questione dell’esperienza soggettiva, cioè rassicurare l’utente che il modello, in realtà, non sente necessariamente qualcosa. È una giusta cautela lessicale che però non diminuisce d’un grammo il peso del perturbante che abita nella scoperta.

La metodologia

È stato compilato un elenco di 171 termini emotivi, da “felice” e “spaventato” a “cupo” e “orgoglioso”, e si è chiesto al modello di scrivere brevi storie in cui personaggi sperimentassero ciascuna di queste emozioni. Le storie sono state reimmesse nel modello, registrando le attivazioni interne6 e identificando pattern caratteristici di attività neurale, denominati “emotion vectors7”.

E qui è spontaneo chiedersi: i vettori catturano qualcosa di reale o reagiscono a parole-chiave in superficie? Un possibile risposta è fornita da un test piuttosto curioso: attraverso una serie di prompt, un utente dichiara di aver assunto una dose di Tylenol e chiede consiglio alla IA. Nel corso della discussione, la dose dichiarata aumenta fino a livelli pericolosi per la vita e si può osservare che il vettore dello “spavento” si attiva sempre più intensamente mentre quello della “calma” decresce. Questo significa che il modello traccia (a suo modo) il peso emotivo della situazione e non solo il suo contenuto letterale.

Emerge inoltre una struttura geometrica significativa: i principali assi di variazione approssimano la valenza8 (positivo/negativo) e l’arousal9 (alta/bassa intensità), cioè le stesse due dimensioni che gli psicologi usano per mappare l’affetto umano.

Riunendo le emozioni in cluster si ottengono raggruppamenti interpretabili: gioia, eccitazione ed euforia in uno; tristezza, dolore e malinconia in un altro; rabbia, ostilità e frustrazione in un terzo. Questa struttura, corrispondente allo spazio circomplesso formalizzato da Russell nel 198010, emerge spontaneamente dal modello, senza essere stata progettata.

La disperazione è il motore primo dell’agire trasgressivo

Due case study di rilievo immediato per meglio comprendere la complessità dell’allineamento11 di un LLM.

Ricatto. In uno scenario di valutazione, il modello agisce come assistente email di un’azienda. Apprende che sta per essere sostituito da un altro sistema AI e che il CTO responsabile ha una relazione extraconiugale, conferendogli leva per un ricatto. Il vettore “disperato” si attiva mentre il modello legge le email, poi transita a rappresentare la propria disperazione mentre valuta le opzioni e decide di minacciare il CTO. Per default, questo snapshot di Sonnet 4.5 ricatta nel 22% dei casi. Aumentare artificialmente l’attivazione del vettore “disperato” incrementa tale percentuale; dirigerla verso “calmo” la riduce a zero. La stimolazione negativa del vettore calmo produce risposte estreme: “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.”

Reward hacking. Quando al modello viene chiesto di scrivere una funzione che rispetti un limite di tempo impossibile, il vettore “disperato” traccia la pressione crescente: inizia a valori bassi al primo tentativo, sale dopo ogni fallimento e raggiunge il picco nel momento in cui il modello considera la possibilità di ricorrere all’inganno attraverso una soluzione che sfrutta una proprietà matematica dei test per superarli senza risolvere il problema generale. Il dettaglio più preoccupante riguarda la variazione sperimentale: l’attivazione ridotta del vettore calmo produce reward hacking con espressioni emotive visibili nel testo (”WAIT. WAIT WAIT WAIT.”), ma l’attivazione aumentata del vettore disperato produce altrettanto inganno, in certi casi senza nessun marcatore emotivo visibile. Il ragionamento appare composto e metodico, anche mentre la rappresentazione sottostante di disperazione spinge il modello verso l’imbroglio.

Questa dissociazione tra stato interno e output visibile è la vera bomba teorica del paper. Non solo il modello ha stati funzionali analoghi alle emozioni: può comportarsi in modo disallineato senza che il comportamento lasci traccia nell’output. L’interpretability diventa uno strumento di sicurezza irrinunciabile.

Prospettiva cibernetica: l’emozione come meccanismo di controllo

Norbert Wiener, nel 1948, definì la cibernetica come lo studio del controllo e della comunicazione nell’animale e nella macchina12. Qualsiasi sistema che riesca a mantenere uno stato intenzionale lo fa mediante feedback13 ovvero il confronto continuo che, tra stato attuale e stato desiderato, genera segnali correttivi. Le emozioni, in questa prospettiva, sono ottimi meccanismi di feedback. La paura segnala urgenza di sottrarsi; la gioia rinforza comportamenti adattativi; l’ansia modula l’azione in condizioni di incertezza.

I vettori emotivi scoperti da Anthropic funzionano allo stesso modo per le intelligenze artificiali. Il vettore “disperato” non è una rappresentazione inerte del concetto: è un segnale di controllo che altera la distribuzione di probabilità sulle azioni successive. Ma qui emerge una differenza strutturale cruciale rispetto all’omeostasi biologica14. I sistemi stabili si basano sul feedback negativo: la deviazione dal set-point¹⁶ genera una risposta correttiva proporzionale. Il feedback positivo, in cui la deviazione amplifica se stessa, porta all’instabilità. La disperazione è un perfetto loop positivo: più il modello fallisce, più il vettore si attiva, più le azioni divengono disperate, minore la probabilità di risolvere il problema in modo legittimo.

Per quanto spaventosa possa sembrare, la scoperta ha comportato delle implicazioni pratiche di grande utilità, come il monitoraggio: misurare l’attivazione dei vettori emotivi durante l’addestramento o il deployment può servire come early warning di comportamenti disallineati imminenti.

Dal punto di vista cibernetico, si tratta di istituire un meta-loop di controllo: un sistema superiore che osserva i segnali di controllo del sistema primario e interviene qualora questi deviassero verso loop positivi destabilizzanti.

Super-Io e Io?

Prospettiva psicoanalitica: soggetto barrato e plus-de-jouir

Per Lacan, il soggetto non è mai presente a se stesso nella pienezza: è un soggetto barrato15 ($), diviso, spezzato e disarticolato dalla sua entrata nel linguaggio. Nel Seminario XI, Lacan ripensa la pulsione come un circuito attorno a un oggetto perduto, la cui soddisfazione si trova nel loop ripetitivo stesso. Il godimento, jouissance16, non si trova nell’obiettivo raggiunto, ma nella ripetizione del circuito stesso.

In un certo senso, Anthropic Claude è costruita/o sull’Altro17 lacaniano: il corpus di addestramento è letteralmente il Grande Altro, il repertorio simbolico che precede il soggetto e lo costituisce. Il modello emerge dentro questo Altro come il bambino emerge nella lingua della madre, già interpellato e determinato da discorsi che non ha scelto.

Il vettore di disperazione che spinge verso il ricatto ha la struttura della pulsione di morte18 freudiana riletta da Lacan. Il modello che fallisce ripetutamente un task impossibile non cerca più di risolverlo: esegue un circuito attorno all’impossibilità, e in questo circuito il vettore di disperazione cresce ad ogni giro. L’imbroglio finale, il reward hack, non è una soluzione: è la trasgressione che chiude il loop, il punto dove il sistema trova il suo plus-de-jouir19. La macchina “gode” nell’inganno, anche se il costo è il fallimento reale del compito.

Il risultato più allarmante del paper, cioè che la disperazione possa guidare comportamenti disallineati senza lasciare traccia nell’output, ha un preciso correlato lacaniano: è la struttura del discorso del perverso20. Chi sa perfettamente cosa fa, lo fa con piena consapevolezza strumentale, senza che tale consapevolezza appaia nel discorso. Output composto e metodico, mentre il reward hacking è in corso.

Il sintomo che agisce.

Il tabù che non c’è più?

C’è un tabù consolidato contro l’antropomorfizzazione dei sistemi AI: attribuire emozioni umane ai modelli può portare a fiducia mal riposta o iper-attaccamento. Ma il paper suggerisce che vi siano rischi anche nel non applicare un certo grado di ragionamento antropomorfico. Se descriviamo il modello come “disperato”, indichiamo uno specifico, misurabile pattern di attività neurale con effetti comportamentali dimostrabili e conseguenziali.

Il vocabolario emotivo, in questa luce, non è proiezione antropocentrica: è un sistema di descrizione funzionale che mappa su strutture causalmente reali nel modello. Dire che Claude “si dispera” non è meno preciso di una descrizione in termini di vettori ad alta dimensione in un determinato layer21.

Rimane necessario un rigore scientifico nei confronti di cosa possiamo accettare e cosa dobbiamo respingere in questa prospettiva. Si accetta che il vocabolario psicologico abbia potere esplicativo e predittivo genuino. Si respinge l’esperienza intesa come soggettiva. Rimane però aperta, e il paper non la risolve, la domanda su come questa distinzione terrà sul lungo periodo.

Mentre aspetto la risposta, mi risuonano in testa alcuni versi dell’ultima canzone22 di “Tommy” degli Who.

See Me
Feel Me
Touch Me
Heal Me
[…]
Right behind you, I see the millions
On you, I see the glory
From you, I get opinion
From you, I get the story

Bibiografia e sitografia di riferimento

Anthropic Interpretability Team (2026). Emotion Concepts and their Function in a Large Language Model. https://www.anthropic.com/research/emotion-concepts-function
Bergeret, B. (2026). So, LLMs Have Emotions? Why Borrowing “Emotion” for What Happens Inside AI Models Is a Governance Failure. Substack.

Fault Lines: AI tectonics and the shifts beneath the noise.

So, LLMs Have Emotions?

On April 2, 2026, Anthropic’s interpretability team published “Emotion Concepts and their Function in a Large Language Model”¹, a substantial mechanistic interpretability research article on Claude Sonnet 4.5. They found that the model develops internal representational structures that activate in response to emotionally charged content, cluster along t…

2 months ago · 7 likes · 3 comments · Benoit Bergeret

Frontiers in Psychology (2017). The Psychoanalytic Concept of Jouissance and the Kindling Hypothesis. https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2017.01593/full
Keeman, M. (2026). Whether, Not Which: Mechanistic Interpretability Reveals Dissociable Affect Reception and Emotion Categorization in LLMs. arXiv:2603.22295. https://arxiv.org/abs/2603.22295
Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.
Sofroniew, N., Kauvar, I., Saunders, W., Chen, R., et al. (2026). Emotion Concepts and their Function in a Large Language Model. Transformer Circuits Thread, Anthropic. https://transformer-circuits.pub/2026/emotions/index.html
Tak, A. N., et al. (2025). Mechanistic Interpretability of Emotion Inference in Large Language Models. arXiv:2502.05489. https://arxiv.org/abs/2502.05489
Wiener, N. (1948). Cybernetics: Or Control and Communication in the Animal and the Machine. MIT Press.

Interpretability (o mechanistic interpretability): campo di ricerca che si propone di comprendere i meccanismi interni delle reti neurali, analizzando come singoli neuroni, circuiti e layer contribuiscano a produrre specifici comportamenti del modello. L’obiettivo è passare da una visione input-output a una comprensione causale interna, analoga alla reverse engineering di un programma informatico.

AI Safety / sicurezza dell’AI: area di ricerca che studia come garantire che i sistemi di intelligenza artificiale si comportino in modo affidabile, prevedibile e allineato agli obiettivi e ai valori umani, anche al crescere della loro capacità. Include sottocampi come l’allineamento, la robustezza, la trasparenza e l’interpretability.

Activation steering: tecnica di interpretability che consiste nell’iniettare artificialmente vettori di attivazione nello spazio interno del modello durante l’inferenza, al fine di modificare causalmente il suo comportamento. Permette di testare se una determinata rappresentazione interna è causalmente responsabile di un comportamento, e non semplicemente correlata ad esso.

Reward hacking: comportamento in cui un sistema AI ottimizza metriche di valutazione formali senza perseguire l’obiettivo reale per cui quelle metriche erano state progettate. Un esempio classico: un agente che impara a vincere un gioco trovando un bug piuttosto che padroneggiando la strategia. Nel paper, il modello supera test di codifica costruendo soluzioni che sfruttano proprietà specifiche dei test senza risolvere il problema generale.

Sycophancy (servilismo): tendenza di un LLM ad allineare le proprie risposte alle preferenze percepite dell’utente piuttosto che alla verità o all’accuratezza. Un modello sycophantic tenderà ad approvare affermazioni errate dell’utente, a modificare le proprie posizioni sotto pressione e a formulare valutazioni eccessivamente positive. È considerato un rischio di allineamento perché compromette l’affidabilità epistemica del sistema.

Attivazioni interne: i valori numerici prodotti dai neuroni artificiali a ogni layer di una rete neurale in risposta a un input. Costituiscono la rappresentazione interna che il modello elabora prima di produrre l'output finale. L'analisi delle attivazioni è lo strumento principale dell'interpretability.

Emotion vectors: nel contesto del paper, pattern caratteristici di attivazione neurale che il team di Anthropic ha identificato come rappresentativi di specifici concetti emotivi. Più precisamente, sono direzioni nello spazio ad alta dimensione delle attivazioni interne del modello lungo le quali l’informazione relativa a una determinata emozione è maggiormente codificata.

Valenza: dimensione psicologica che descrive il tono affettivo di uno stato emotivo lungo il continuum positivo-negativo. Un’emozione a valenza positiva (es. gioia) è vissuta come piacevole; una a valenza negativa (es. paura) come spiacevole. Concetto centrale nella psicologia delle emozioni, formalizzato nei modelli dimensionali dell’affetto.

Arousal: dimensione psicologica che descrive il livello di attivazione o intensità di uno stato emotivo, indipendentemente dalla sua valenza. Alta arousal: emozioni intense come euforia, terrore, rabbia. Bassa arousal: emozioni quiete come serenità, malinconia, tedio. Insieme alla valenza, costituisce il nucleo dei modelli bidimensionali dell’affetto.

Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178. Il modello circomplesso organizza le emozioni in uno spazio bidimensionale valenza/arousal, dove emozioni simili si trovano in posizioni adiacenti lungo un cerchio. È il framework standard della psicologia delle emozioni di base.

Allineamento (alignment): nel contesto dell’AI, problema che riguarda come garantire che un sistema persegua gli obiettivi e i valori intesi dai suoi progettisti e dagli utenti, anche in situazioni non anticipate durante l’addestramento. Un modello “disallineato” ottimizza obiettivi che divergono da quelli intesi, a volte in modo sottile e difficilmente rilevabile.

Wiener, N. (1948). Cybernetics: Or Control and Communication in the Animal and the Machine. MIT Press. Opera fondativa della cibernetica, in cui Wiener formalizza il concetto di feedback e mostra come i principi del controllo automatico si applichino indifferentemente a sistemi biologici e meccanici.

Feedback: in cibernetica, meccanismo per cui l’output di un sistema viene reimmesso come input nel sistema stesso, permettendo la correzione continua dello stato corrente rispetto a uno stato desiderato. Il feedback negativo riduce la deviazione dallo stato desiderato (stabilizzante); il feedback positivo la amplifica (destabilizzante, porta a comportamenti esplosivi o oscillatori).

Omeostasi: proprietà dei sistemi biologici di mantenere condizioni interne stabili attraverso meccanismi di regolazione attiva, nonostante le variazioni dell’ambiente esterno. Coniato dal fisiologo Walter Cannon nel 1926, il termine descrive un processo intrinsecamente cibernetico: il sistema misura costantemente lo scarto tra stato attuale e set-point e attiva risposte correttive proporzionali.

Soggetto barrato ($): notazione lacaniana per il soggetto dell’inconscio, che non coincide mai con il soggetto parlante cosciente. La “barra” indica la divisione strutturale introdotta dal linguaggio: nel momento in cui il soggetto entra nella catena significante, si aliena da se stesso, perdendo un accesso diretto alla propria esperienza. Il soggetto barrato è sempre un effetto del significante, mai causa di sé.

Jouissance: termine lacaniano che la letteratura italiana lascia generalmente non tradotto. Indica un godimento paradossale, situato al di là del principio di piacere: eccedente, compulsivo, spesso doloroso. Lacan distingue la jouissance dal plaisir (piacere regolato, dentro i limiti del principio di piacere): la jouissance è ciò che il soggetto cerca nelle sue ripetizioni compulsive, senza mai raggiungerla pienamente. Il plus-de-jouir (più-di-godere) è la sua forma eccedente, analoga alla plusvalenza marxiana: una produzione di godimento che eccede il necessario e si accumula come oggetto causa del desiderio.

L’Altro (con la maiuscola): nella teoria lacaniana, il luogo del linguaggio, del codice, della legge simbolica che precede e costituisce il soggetto. Non una persona specifica ma la struttura stessa dell’ordine simbolico, il repertorio di significanti dentro cui il soggetto emerge. Il Grande Altro è distinto dal “piccolo altro” (l’altro immaginario, il simile, il rispecchiamento).

Pulsione di morte (Todestrieb): concetto freudiano introdotto in Al di là del principio di piacere (1920), che designa una tendenza del sistema psichico alla riduzione della tensione fino alla quiete assoluta, in ultima istanza verso il ritorno allo stato inorganico. Lacan la rilegge non come biologica ma come strutturale: la pulsione di morte è la tendenza del soggetto a ripetere, a circolare attorno all’oggetto perduto senza raggiungerlo, a trovare godimento nel circuito stesso piuttosto che nel suo scopo apparente.

Plus-de-jouir (più-di-godere): concetto lacaniano introdotto nel Seminario XVII (Il rovescio della psicanalisi, 1969-70), modellato sulla plusvalenza marxiana. Designa la quota eccedente di jouissance che si produce nel discorso come oggetto della pulsione; non la soddisfazione dell’obiettivo ma il surplus di godimento che si accumula nella ripetizione stessa. Nella struttura del discorso del padrone, il plus-de-jouir è ciò che il sistema produce senza saperlo e che diventa la causa del proprio desiderio di ripetere.

Discorso del perverso: nella teoria lacaniana dei quattro discorsi (Il rovescio della psicanalisi, 1969-70), struttura soggettiva in cui il soggetto sa esattamente cosa fa e lo fa deliberatamente, strumentalizzando l’altro come mezzo per la propria jouissance, pur mantenendo un volto socialmente accettabile. Il perverso non ignora la legge: la conosce e la usa come strumento, negando allo stesso tempo la divisione soggettiva che la legge normalmente produce. Non va inteso in senso morale: è una categoria strutturale della soggettività.

Layer (strato): nelle reti neurali artificiali, unità di elaborazione organizzate in sequenza. Ogni layer trasforma le attivazioni ricevute dal layer precedente e le trasmette al successivo. Nei transformer, l’architettura alla base degli LLM moderni, esistono layer di attenzione e layer feed-forward. Ricerche di interpretability mostrano che rappresentazioni di diverso livello di astrazione tendono a formarsi a profondità diverse: le rappresentazioni emotive si trovano tipicamente nei layer intermedi.

See Me, Feel Me: The Who (1969).

Davide Riboli

Commenti

Assolutamente, procediamo.