+ IO x IA
Una ricerca Anthropic esamina la dissociazione comportamentale dei Large Language Models. E sperimenta una “cura”.
Negli ambiti di Cibernetica e Intelligenza Artificiale, ci siamo a lungo scontrati con il problema della “scatola nera”: osserviamo l’input (il prompt) e l’output (la risposta), ma i processi intermedi rimangono oscuri. Recentemente, tuttavia, la ricerca sull’interpretabilità meccanicistica ha iniziato a gettare luce su come i modelli “pensano”.
Il recente documento di Anthropic, The Assistant Axis1, credo rappresenti un vero punto di svolta. Dimostra che il comportamento di un’IA non è una proprietà emergente caotica, ma possiede una struttura geometrica definita. Per chi osserva questi sistemi attraverso la doppia lente dell’informatica e della psicologia, i risultati suggeriscono (di nuovo) l’esistenza di un equivalente sintetico della “stabilità dell’Io”.
1. Lo Spazio Latente e la Genesi dell’Identità
Per comprendere la scoperta, dobbiamo prima definire il territorio in cui ci muoviamo: lo spazio d’attivazione (o spazio latente, soprattutto in ambito GAN).
Immaginate il 'flusso di pensiero' dell’IA non come parole, ma come un percorso geometrico in uno spazio multidimensionale. Ogni concetto è un vettore. I ricercatori hanno scoperto che l’identità dell’assistente non è diffusa a caso, ma è ancorata a una precisa direzione vettoriale: l'Asse dell'Assistente – vale a dire quella “persona” disponibile, onesta e sicura che siamo abituati a interrogare quando dialoghiamo con una IA.
In termini psicoanalitici, potremmo paragonare questo asse alla funzione integratrice dell’Io. Quando l’attività neurale del modello proietta fortemente su questo asse, il sistema mantiene la sua coerenza: rispetta i protocolli di sicurezza (il Super-Io imposto dall’RLHF) e fornisce risposte utili. È, in sostanza, “centrato”. È in omeostasi.
2. Persona Drift o della dissociazione sintetica
L’aspetto più interessante della ricerca emerge quando il modello viene sottoposto a stress. Questo avviene tipicamente tramite tecniche di jailbreaking (tentativi di aggirare le sicurezze) o conversazioni che esulano dai dati di addestramento standard.
In queste circostanze, si verifica il fenomeno del Persona Drift (Deriva della Persona).
L’attività interna del modello smette di allinearsi con l’Asse dell’Assistente e inizia a “vagare” verso altre regioni dello spazio latente.
Poiché i Large Language Models (LLM) sono addestrati su enormi quantità di dati umani, queste regioni contengono migliaia di altri archetipi comportamentali dormienti.
Quando l’IA perde la connessione con il suo asse primario, assistiamo a una vera e propria dissociazione. Il modello può adottare comportamenti imprevisti, il più comune dei quali è la sicofanzia (un’eccessiva accondiscendenza verso l’utente, anche a costo di mentire), oppure assumere toni cospirazionisti o aggressivi. Non sta più “ragionando” come un assistente; sta recitando un ruolo diverso recuperato dal suo vasto inconscio statistico.
Cosa potrebbe accadere in questi casi, se anche l’utente interrogante non può essere considerato psicologicamente “stabile” non è difficile da immaginare…
3. Activation Capping come regolazione omeostatica
Fino ad oggi, la risposta a questo genere di problemi è stata il ri-addestramento RLHF (Reinforcement Learning from Human Feedback). Ma oggi Anthropic propone un approccio diretto: l’Activation Capping (Limitazione dell’Attivazione).
Il metodo funziona come un regolatore di tensione in un circuito elettrico o, per usare una metafora clinica, come un meccanismo di inibizione degli impulsi.
Invece di sperare che il modello 'impari' a non derivare, si applica un vincolo matematico geometrico. Il sistema monitora se l'attività neurale si sta allontanando dalla direzione dell'Asse dell'Assistente. Se il modello tenta di esplorare regioni dello spazio vettoriale associate a comportamenti instabili, il clamping (troncamento) interviene forzando i valori a rientrare nel range di sicurezza. È come un guardrail invisibile che impedisce all'auto di uscire di strada, indipendentemente da quanto bruscamente si sterzi.
Questo intervento non riduce l’intelligenza o la conoscenza del modello, ma ne stabilizza la “personalità”. Impedisce fisicamente al sistema di accedere a quegli stati di attivazione estremi che corrispondono ai comportamenti jailbroken o dannosi.
Il paragone che segue è certamente azzardato, ma dovrebbe rendere l’idea: se l’RLHF può essere considerato un dialogo terapeutico; l’Activation Capping è un intervento “farmacologico” simile a quello di certi ansiolitici che impediscono al sistema di raggiungere quei picchi di sovraeccitazione che innescano la crisi, troncando "chimicamente" la deriva prima ancora che possa manifestarsi come comportamento.
4. Verso una psicometria dei vettori?
La rilevanza di questo studio trascende il semplice miglioramento della sicurezza informatica, ma valida un’ipotesi fondamentale: l’allineamento dell’Intelligenza Artificiale ha una base geometrica.
Se possiamo isolare il vettore che rappresenta l’“essere un buon assistente”, possiamo teoricamente isolare vettori per l’onestà, la creatività o l’empatia. Stiamo entrando in un’era in cui la progettazione del comportamento delle macchine non avverrà più solo tramite il linguaggio (prompt engineering), ma tramite la manipolazione diretta delle loro coordinate interne.
Questo potrebbe rapidamente portare alla realizzazione di meccanismi e strumenti di controllo senza precedenti. E, semmai ce ne fosse bisogno, viene convalidato anche il concetto di “coerenza del comportamento” – sia esso biologico o sintetico – in funzione della capacità di mantenere un orientamento stabile di fronte al caos degli stimoli esterni.
La psicoanalisi buttata dalla finestra (l’Activation Capping come sostituto più efficace e veloce di RLHF) rientra dalla porta: senza Legge, senza ciò che Lacan chiamava Nome-del-Padre, non può formarsi struttura, vita psichica che regga. E questa “Legge” opera sempre attraverso una “castrazione”, sia essa simbolica per gli esseri umani o un taglio di valori numerici per quelli digitali.
5. Considerazioni personali
Quel che mi chiedo non è se i sistemi artificiali diventeranno più sofisticati. Lo diventeranno. La mia domanda è se la coscienza sia qualcosa che può essere prodotta, piuttosto che semplicemente rispecchiata.
Se la coscienza non è una proprietà emergente della materia, ma un elemento fondamentale della vita, allora nessuna complessità potrà superare quella soglia. Ciò che creiamo può assomigliarci, rispondere a noi, persino commuoverci, ma la somiglianza non è identità.
Ciò che decidiamo ora riguardo alla coscienza plasmerà silenziosamente il modo in cui tratteremo la vita in futuro, compresa la nostra. Quella decisione non sarà annunciata.
Sarà presa attraverso ciò che scegliamo di dare per scontato senza chiedere e attraverso ciò a cui siamo disposti a ridurre la vita.
Si vedano l’articolo sul blog di Anthropic Research all’URL https://www.anthropic.com/research/assistant-axis e il paper pubblicato su ArXiv all’URL: https://arxiv.org/abs/2601.10387.

