La voce che non pensa
Perché scrivere prompt è meglio che dirli.
⏱️ Lettura: ~12 minuti
☕☕ Caffè necessari: Uno. In silenzio.
Intro
Questo articolo nasce da una discussione che ho avuto con Andrea Fantucchio, l’autore del Substack IA per tutti. Abbiamo opinioni molto diverse su questo argomento. La nostra discussione è avvenuta in pubblico e, se vi interessa, la potete leggere qui:
C’è una speranza diffusa, alimentata da decenni di fantascienza e da qualche anno di marketing aggressivo, secondo cui il futuro della migliore interazione possibile con i sistemi di intelligenza artificiale sarà la voce. Del resto, nulla è più naturale, immediato e umano del parlare.
In questa prospettiva, presto il digitare potrebbe diventare poco più che un residuo industriale, un’abitudine vecchia come la tastiera meccanica di cui avrebbe bisogno. E poi scrivere è così noioso! La voce libera. Il testo incatena.
Ma questa prospettiva è, almeno per il momento, tanto sbagliata, quanto sbagliata.
Non perché la tecnologia non sia matura (lo è senza dubbio). Ma perché il problema non è tecnologico: è cognitivo. E il cognitive bottleneck dell’interazione vocale con i grandi modelli linguistici non sta nel riconoscimento del parlato, ma in quello che succede prima che l’utente apra bocca. O, più precisamente, in quello che non succede.
Il benchmark che nessuno cita nel marketing
Nel 2024, un gruppo di ricercatori della National University of Singapore e dell’Università di Hong Kong ha pubblicato VoiceBench, il primo benchmark sistematico per la valutazione degli assistenti vocali basati su LLM1. Il paper è stato poi accettato da Transactions of the Association for Computational Linguistics (MIT Press), che non è esattamente una rivistina di settore.
I risultati meritano attenzione. Nei test di elaborazione del testo, i modelli end-to-end addestrati per l’interazione vocale mostrano un degrado medio superiore a 11 punti rispetto alle loro controparti testuali e la degradazione è particolarmente severa sui task di instruction following, cioè proprio quelli in cui l’utente ha bisogno che il modello faccia esattamente quello che gli viene chiesto. Anche il riconoscimento vocale automatico (ASR) seguito da LLM testuale mostra un gap di 5,77 punti rispetto all’input scritto direttamente e questo prima ancora di considerare gli effetti degli accenti, del rumore ambientale, delle disfluenze varie2.
Il punto critico identificato dallo studio è la vulnerabilità degli LLM al Word Error Rate: i modelli tollerano bene gli errori grammaticali, comuni nel testo scritto informale, ma si degradano significativamente quando la trascrizione produce parole sbagliate. E la cosa insidiosa è che molti di questi errori sono semanticamente critici senza essere statisticamente rilevanti.
Non stai misurando ciò che credi
Il Word Error Rate è la metrica standard per valutare un sistema di riconoscimento vocale: quante parole su cento vengono trascritte in modo errato. Un sistema moderno come quello utilizzato da Wispr Flow o da Whisper di OpenAI raggiunge agevolmente WER inferiori al 5% in condizioni controllate. In ambienti rumorosi o con parlanti non nativi, le performance calano: si va dall’88% di accuratezza con il microfono integrato del laptop al 96-97% con un microfono esterno in ambiente silenzioso3.
Il problema è che il WER è una metrica superficialmente lessicale che non cattura il danno semantico reale. Ricercatori della comunità ASR hanno introdotto una metrica alternativa, l’Answer Error Rate (AER), che misura la divergenza negli output dell’LLM tra trascrizioni pulite e trascrizioni ASR dello stesso enunciato. I dati empirici mostrano che l’AER supera il WER di 10-30 punti percentuali, e che gli errori semanticamente critici, come la negazione di un’istruzione, lo scambio tra termini foneticamente simili ma semanticamente opposti, l’omissione di un modificatore, dominano i fallimenti a valle, nonostante contribuiscano in modo marginale al punteggio WER4.
Detto in modo meno tecnico: un sistema che sbaglia una parola su cento può sembrare affidabile. Ma se quella parola è “non”, o “senza”, o il nome proprio di un concetto tecnico, l’output dell’LLM può diventare inutile o, in contesti ad alto rischio, pericoloso. E se non vedi la trascrizione intermedia, non hai modo di accorgertene in tempo reale5.
Scrivere è una disciplina cognitiva
C’è anche un problema più profondo che la sola catena tecnica ASR→LLM non esaurisce. Ed è un problema che riguarda cosa succede nella testa di chi interagisce con il sistema, prima ancora che il segnale acustico venga processato.
La ricerca sul carico cognitivo, un framework consolidato in psicologia dell’educazione a partire dai lavori di John Sweller6, distingue tra il carico intrinseco di un compito (la sua complessità oggettiva), il carico estraneo (quello generato da una presentazione inefficiente delle informazioni) e il carico utile (quello che genera apprendimento e comprensione). L’interazione vocale, in particolare per task complessi, tende ad aumentare il carico estraneo per una ragione strutturale: la natura transitoria del segnale acustico impedisce la revisione non lineare.
Un testo scritto, su schermo o su carta, è un oggetto persistente. Puoi tornare indietro, confrontare paragrafi, isolare un’ambiguità, rileggere l’output dell’LLM accanto alla tua richiesta. Un enunciato vocale scompare nel momento in cui viene emesso. Chi parla non può “riprendersi indietro” una parola, ristrutturare una frase a metà, o confrontare in parallelo due formulazioni alternative della stessa richiesta. Questo ha una conseguenza diretta sulla qualità del prompt: l’atto dello scrivere impone una strutturazione esplicita del pensiero che il parlato spontaneo non richiede.
Un preprint recente presentato alla CHI 2025 propone una prospettiva interessante: la voce potrebbe in realtà ridurre il carico cognitivo nella scrittura riflessiva, favorendo la conversazione spontanea e il feedback iterativo con un agente IA7. È una posizione minoritaria rispetto alla letteratura dominante, e il paper è ancora una proposta di studio formativo, non uno studio conclusivo. Ma vale la pena tenerla in mente, perché introduce una distinzione che spesso manca nel dibattito: non tutti i task cognitivi sono uguali.
Per attività di brainstorming libero, elaborazione emotiva, o esplorazione fluida di un’idea, la voce potrebbe effettivamente abbassare la frizione. Per la formulazione di istruzioni precise, la gestione di richieste multi-step, la verifica di output tecnici, attività tipiche nell’uso professionale degli LLM, il testo mantiene una superiorità strutturale che per il momento è indiscutibile.
Wispr Flow e la terza via
Torniamo alla tecnologia. Nell’ecosistema degli strumenti di produttività IA, c’è una categoria che ha guadagnato attenzione negli ultimi due anni: i voice-to-polished-text tools. Non sono assistenti vocali nel senso tradizionale, non producono risposte parlate,ma nemmeno semplici trascrittori. Sono sistemi che intercettano la voce prima che raggiunga l’LLM, la trasformano in testo scritto pulito, eliminano le disfluenze, adattano il registro al contesto (email vs Slack vs documento tecnico) e restituiscono un input testuale strutturato.
Il principale rappresentante di questa categoria è Wispr Flow, un’applicazione disponibile per Mac, Windows, iOS e Android che ha recentemente raccolto 81 milioni di dollari di finanziamenti. Il funzionamento è semplice: si attiva con una hotkey, si parla, e il testo appare direttamente nel campo attivo: Claude, Gmail, VS Code, qualsiasi cosa. Il processo avviene in cloud con architettura multi-layer: un primo strato di trascrizione, seguito da strati di cleanup e adattamento stilistico.
L’accuratezza dichiarata è del 96-97% in ambiente silenzioso con microfono esterno, circa 88% in contesti rumorosi. Le recensioni indipendenti confermano che per la prosa conversazionale in inglese i risultati sono usabili con correzioni minime; la gestione di termini tecnici e nomi propri migliora significativamente aggiungendo vocabolario personalizzato8.
Come sempre, la privacy va a farsi benedire: poiché tutto avviene in cloud, il sistema è inadatto a contesti con dati sensibili, in assenza di contratti Enterprise con compliance HIPAA o SOC 2 Type II. Chi ha esigenze di riservatezza seria può comunque valutare alternative che lavorano localmente. E funzionano un po’ a singhiozzo.
Cosa rende Wispr Flow interessante dal punto di vista cognitivo? Introduce un disaccoppiamento: la produzione dell’input avviene vocalmente, ma il risultato è testo scritto che l’utente può leggere, verificare e correggere prima di inviarlo all’LLM. Elimina in parte il problema della transitorietà del segnale vocale: il testo trascritto rimane visibile, modificabile, confrontabile. Quindi riduce significativamente la propagazione degli errori di trascrizione, ma non risolve affatto il problema della strutturazione cognitiva del pensiero.
Non è come lo dici a fare la differenza. È come lo pensi.
L’ho già detto: la vera questione non è se i sistemi di riconoscimento vocale siano abbastanza accurati. A certi livelli, lo sono. La questione è se l’atto del parlare produca, in media, istruzioni di qualità comparabile all’atto dello scrivere per task cognitivamente esigenti.
Uno studio con EEG pubblicato nel 2025 su Frontiers in Computational Neuroscience ha misurato direttamente l’impatto delle interazioni con LLM su attenzione, carico cognitivo e processo decisionale9. I dati mostrano che l’interazione con sistemi ML riduce il carico cognitivo rispetto ai sistemi simbolici precedenti, ma non distinguono tra modalità vocale e testuale. È un gap della letteratura che le ricerche a venire dovranno colmare.
Quello che la ricerca disponibile suggerisce, però, è che scrivere un prompt non è un atto neutro di traduzione di un pensiero già formato in sequenza di caratteri. È parte del processo di formazione del pensiero stesso. La resistenza materiale della tastiera, il ritmo della composizione, la possibilità di rileggere e correggere, tutto questo genera feedback cognitivo che modifica l’intenzione in itinere. In termini “kahnemaniani”10: il testo favorisce il Sistema 2, deliberato e analitico; la voce facilita il Sistema 1, veloce e intuitivo. Nessuno dei due è universalmente superiore. Ma per task che richiedono precisione logica, il Sistema 2 produce output migliori.
Quindi zitti e muti?
L’evidenza non suggerisce di abbandonare a priori l’interazione vocale. Suggerisce di usarla in modo ragionevole. Per chi lavora con LLM professionalmente, questa potrebbe essere una gerarchia operativa sensata:
Voce diretta all’LLM: task molto semplici, richieste di informazioni non critiche, contesti hands-free. Coscienza piena, prima di iniziare l’interazione che il margine di errore aumenterà.
Voce tramite strumenti come Wispr Flow: produzione rapida di testo in qualsiasi applicazione, con revisione umana prima dell’invio. Al momento, compromesso migliore tra velocità di produzione e qualità dell’input. Rimane il problema del tenere il cervello bello acceso, mentre si da aria alla bocca.
Testo scritto diretto: task complessi, istruzioni multi-step, contesti in cui l’accuratezza è prioritaria, prompt engineering sistematico. Non c’è scorciatoia ed è un bene che non ci sia.
La promessa del “parla e il tuo assistente IA ti capirà perfettamente” è vera solo per una parte molto ristretta dei casi d’uso. Per il resto, la tastiera, o almeno la revisione del testo trascritto, rimane uno strumento cognitivo irrinunciabile.
Sitografia di riferimento
Chen, Y., Yue, X., Zhang, C., Gao, X., Tan, R. T., & Li, H. (2024). VoiceBench: Benchmarking LLM-Based Voice Assistants. arXiv:2410.17196. Pubblicato in Transactions of the Association for Computational Linguistics, MIT Press, 2026. https://arxiv.org/abs/2410.17196
Ellis, Z., Joselowitz, J., Deo, Y., He, Y., Kalygina, A., Higham, A., Rahimzadeh, M., Jia, Y., Habli, I., & Lim, E. (2026). WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue. In Proceedings of the 16th International Workshop on Spoken Dialogue Systems Technology (IWSDS 2026), pp. 391–417. Association for Computational Linguistics. https://aclanthology.org/2026.iwsds-1.39.pdf
Fritz.ai — Wispr Flow Review (marzo 2026). https://fritz.ai/wispr-flow-review/
Hollebeek, L. D. et al. (2026). Talking vs typing: how voice- vs text-based educational robots shape student engagement. Journal of Service Management, 37(1), 141–164. https://doi.org/10.1108/JOSM-02-2024-0082
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Max-Productive.ai — Wispr Flow Review 2026 (aprile 2026). https://max-productive.ai/ai-tools/wispr-flow/
PMC / Frontiers in Computational Neuroscience — The cognitive impacts of large language model interactions on problem solving and decision making using EEG analysis (2025). https://pmc.ncbi.nlm.nih.gov/articles/PMC12307350/
Rzepka, C., Berger, B., & Hess, T. (2021). Voice Assistant vs. Chatbot – Examining the Fit Between Conversational Agents’ Interaction Modalities and Information Search Tasks. Information Systems Frontiers, 24(3), 839–856. https://doi.org/10.1007/s10796-021-10226-5
Sra, M. (2025). Conversing with AI agents in VR: An early investigation of alignment and modality. Empathic Computing, 2(1). https://doi.org/10.70401/ec.2025.0013 (nota: studio esplorativo con campione n=36)
Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257–285. https://doi.org/10.1207/s15516709cog1202_4
Talk or Text? The Role of Communication Modalities in the Adoption of a Non-directive, Goal-Attainment Coaching Chatbot. Interacting with Computers, 35(4), 511–. Oxford Academic.
https://academic.oup.com/iwc/article/35/4/511/7204732Transactions of the Association for Computational Linguistics — VoiceBench (MIT Press, 2026).
https://direct.mit.edu/tacl/article/doi/10.1162/TACL.a.628/136245/Voice Interaction With Conversational AI Could Facilitate Thoughtful Reflection and Substantive Revision in Writing. arXiv:2504.08687 (2025).
https://arxiv.org/abs/2504.08687Voorveld, H., Panteli, A., Schirris, Y., Ischen, C., Kanoulas, E., & Lentz, T. (2025). Examining the persuasiveness of text and voice agents: prosody aligned with information structure increases human-likeness, perceived personalisation and brand attitude. Behaviour and Information Technology, 44(12), 2913–2928.
https://doi.org/10.1080/0144929X.2024.2420871
Wong, A., Leahy, W., Marcus, N., & Sweller, J. (2012). Cognitive load theory, the transient information effect and e-learning. Learning and Instruction, 22(6), 449–457. https://doi.org/10.1016/j.learninstruc.2012.05.004
Zhao, Y. C., Lukoff, K., Bhatt, K., & Shi, A. (2024). Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks. arXiv:2401.02921. https://arxiv.org/abs/2401.02921
Zhang, J. et al. (2024). Alone but not isolated: social presence and cognitive load in learning with 360 virtual reality videos. Frontiers in Psychology, 15, 1305477. https://doi.org/10.3389/fpsyg.2024.1305477
Chen, Y., Yue, X., Zhang, C., Gao, X., Tan, R. T., & Li, H. (2024). VoiceBench: Benchmarking LLM-Based Voice Assistants. arXiv:2410.17196. Pubblicato su Transactions of the Association for Computational Linguistics, MIT Press, 2025/2026.
Il paper distingue tra pipeline "naïve" (ASR + LLM testuale) e modelli end-to-end come LLaMA-Omni: i secondi mostrano degradazioni ancora più severe sulle task di instruction-following dopo il fine-tuning vocale, a causa della perturbazione dei pesi originali del modello linguistico.
Dati da recensione indipendente: Max-Productive.ai, Wispr Flow Review 2026, aggiornato aprile 2026. Le percentuali di accuratezza variano significativamente in funzione del microfono e del contesto ambientale.
AER (Answer Error Rate) vs WER: il framework è descritto in Pulikodan et al. (2025), citato in eMergentMind, LLM-Based Automatic Speech Recognition, 2025. La metrica AER misura la proporzione di coppie domanda-risposta in cui l’output dell’LLM diverge tra trascrizione pulita e trascrizione ASR dello stesso enunciato.
Un modo di dire che ho sempre detestato. Presume l’esistenza di un tempo reale e quindi di uno irreale. Il tempo è tutto irreale : )
Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257-285. Il framework della Cognitive Load Theory è uno dei più citati nella psicologia dell’educazione; il paper originale supera le 10.000 citazioni su Google Scholar.
Voice Interaction With Conversational AI Could Facilitate Thoughtful Reflection and Substantive Revision in Writing. arXiv:2504.08687, 2025. Nota personale: si tratta di una proposta di studio formativo, non di risultati conclusivi.
Recensioni analizzate: Fritz.ai (marzo 2026), Serverman.co.uk (2026), Ordoh.com (2026), Max-Productive.ai (aprile 2026). Fonte su finanziamenti: sito ufficiale Wispr Flow, che riporta $81M raccolti inclusa una Serie A da Menlo Ventures nel 2025.
The cognitive impacts of large language model interactions on problem solving and decision making using EEG analysis. Frontiers in Computational Neuroscience, giugno 2025. PMC12307350.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. La distinzione tra Sistema 1 (pensiero rapido, intuitivo, automatico) e Sistema 2 (pensiero lento, deliberato, logico) è il framework centrale del libro. Avvertenza: l’applicazione di questo modello alla qualità comparativa dei prompt vocali vs testuali è una mia personale inferenza, non il risultato di uno studio empirico diretto.

