L’AI che legge il pensiero. Le recentissime ricerche che uniscono tecniche di imaging cerebrale e sistemi di IA
E' stato messo a punto un decodificatore in grado di riprodurre - con un livello di precisione sorprendente - le storie che una persona ha ascoltato o immaginato di raccontare nello scanner.
Finora, le più sofisticate tecniche di “imaging” disponibili – come la risonanza magnetica funzionale (fMRI) – sono in grado di restituire istantanee grossolane e colorate del cervello in azione. Di sicuro, un enorme passo avanti, che apre a significativi avanzamenti nello sviluppo delle neuroscienze cognitive. Nulla, comunque, che assomigli a una sorta di “macchina per leggere la mente”, permettendo ai neuroscienziati di guardare una scansione cerebrale e dire che cosa qualcuno stia vedendo, sentendo o pensando in quel momento.
Ma gli studiosi vorrebbero gradualmente abbattere questo limite, fino a riuscire a tradurre le esperienze interne in parole mediante l’uso dell’imaging cerebrale, con beneficio – ad esempio – delle persone che non possono parlare o comunicare in altro modo con l’esterno (soggetti colpiti da ictus o affetti da sclerosi laterale amiotrofica).
Va in questa direzione una recente ricerca (riassunta in articolo pubblicato su “Nature Neuroscience”), realizzata da un gruppo di scienziati dell’Università del Texas di Austin (USA), coordinati da Jerry Tang, neuroscienziato computazionale. Tang e colleghi, infatti, hanno provato a combinare la capacità della fMRI di monitorare l’attività neurale con la potenza predittiva dei modelli linguistici di intelligenza artificiale. Mediante questa tecnologia ibrida, quindi, hanno messo a punto un decodificatore in grado di riprodurre – con un livello di precisione sorprendente – le storie che una persona ha ascoltato o immaginato di raccontare nello scanner. Inoltre, anche se con minore precisione, il decodificatore è riuscito ad indovinare la trama di un cortometraggio che una persona ha guardato nello scanner. “I dati cerebrali – sottolinea Tang – contengono molte più informazioni di quanto pensassimo inizialmente”. L’esperimento, dunque, rappresenta “una prova di concetto che il linguaggio può essere decodificato da registrazioni non invasive dell’attività cerebrale”.
Si tratta solo dei primi passi in questa direzione. La tecnologia di decodifica necessita di essere addestrata in modo approfondito per ogni persona che la usa, senza riuscire ancora a costruire una trascrizione esatta delle parole che ha sentito o pensato. Tuttavia, adesso i ricercatori sanno che il sistema linguistico dell’IA (un primo “parente” del modello alla base di ChatGPT), semplicemente guardando le scansioni cerebrali fMRI, può aiutare a fare ipotesi sensate sulle parole che hanno evocato l’attività cerebrale registrata. “Quello che otteniamo – spiega Alexander Huth, neuroscienziato computazionale all’Università del Texas ad Austin e co-autore dello studio – è ancora una sorta di ‘succo’ o, meglio, una parafrasi, di quella che era la storia originale”.
Eccone un esempio riportato nell’articolo. Un partecipante allo studio ha ascoltato questa frase: “Mi sono alzato dal materasso ad aria e ho premuto il viso contro il vetro della finestra della camera da letto aspettandomi di vedere degli occhi che mi fissavano e invece ho trovato solo il buio”. Analizzando le scansioni cerebrali del soggetto, il modello le ha decodificate così: “Ho continuato ad avvicinarmi alla finestra e ad aprire il vetro, mi sono alzato sulle punte dei piedi e ho sbirciato fuori, non ho visto nulla e ho alzato di nuovo lo sguardo, ma non ho visto nulla”. Il modello, dunque, mostra ancora molte difficoltà di “comprensione” delle storie che decodifica. Tuttavia, riesce a raggiunge un livello di accuratezza di gran lunga superiore rispetto ai metodi precedenti. Va rilevato che, in questo caso, il gruppo di Tang ha usato il modello GPT-1, elaborato nel 2018 e versione originale di GPT-4 (attualmente alla base di ChatGPT).
Per i neuroscienziati, la decodifica di intere parole e frasi è una sfida molto impegnativa. L’ostacolo più grande è rappresentato dalla stessa fMRI, che non misura direttamente la rapida attivazione dei neuroni del cervello, ma traccia invece i lenti cambiamenti nel flusso sanguigno che fornisce ossigeno ai neuroni. Ciò rende le scansioni fMRI temporalmente “sfocate”, paragonabili ad una fotografia a lunga esposizione di un marciapiede di una città in fermento, con i tratti del viso dei passanti oscurati dal movimento. Ora, però, il connubio con le capacità predittive dei modelli linguistici di IA potrebbe essere l’arma vincente per superare questi limiti. Nel nuovo studio, tre partecipanti sono rimasti immobili in uno scanner fMRI per 15 sessioni (per un totale di 16 ore). Mentre ascoltavano in cuffia estratti di podcast e programmi radiofonici, lo scanner ha monitorato il flusso sanguigno in diverse regioni del cervello legate al linguaggio. Questi dati sono stati poi usati per addestrare un modello di IA che ha individuato gli schemi di attivazione del cervello di ciascun soggetto in risposta a determinate parole e concetti. Successivamente, il modello ha preso una nuova serie di immagini cerebrali e ha ipotizzato quello che una persona stava ascoltando nel momento in cui sono state scattate. I risultati, seppur sono incoraggianti, seppur ancora lontani dalla precisione. In generale, va sottolineato come la capacità di tradurre in parole il discorso immaginato sia fondamentale per la progettazione di interfacce cervello-computer per le persone che non sono in grado di comunicare con il linguaggio.
Ma c’è di più: i risultati ottenuti vanno oltre il linguaggio. I ricercatori, infatti, hanno fatto guardare alle persone nello scanner alcuni cortometraggi animati senza audio. Ebbene, il decodificatore è riuscito a decifrare le storie dalle scansioni cerebrali dei partecipanti che guardavano i filmati muti. “Sono stato più sorpreso – commenta Huth – dal video che dal discorso immaginato, perché i filmati erano muti. Penso che stiamo decodificando qualcosa di più profondo del linguaggio”.
Restano comunque numerosi i problemi da risolvere prima che tale tecnologia possa essere correntemente usata come interfaccia cervello-computer. In primo luogo, la tecnologia di scansione non è portatile: le macchine per la risonanza magnetica occupano intere stanze di ospedali e istituti di ricerca e costano milioni di dollari. A tal proposito, il team di Huth sta lavorando per adattare queste scoperte ai sistemi di imaging cerebrale esistenti che possono essere indossati come un cappellino (come la spettroscopia funzionale nel vicino infrarosso e l’elettroencefalogramma).
C’è poi l’esigenza di dedicare molto tempo per un’intensa personalizzazione di questa tecnologia, con ore di dati fMRI necessarie per ogni individuo. Per ogni soggetto trattato, i modelli di intelligenza artificiale devono essere addestrati per adattarsi e sintonizzarsi sul suo cervello.
Rimane una problematica di fondo, tanto più significativa e urgente da affrontare, quanto più precisi ed efficaci saranno i risultati che i ricercatori riusciranno ad ottenere con queste innovative tecnologie: la tutela della privacy delle nostre riflessioni e dei nostri pensieri più intimi. “Non può ancora funzionare per fare cose davvero nefaste – dice Tang – ma non vogliamo lasciare che si arrivi a quel punto prima di avere politiche che lo impediscano”. Come sempre, insomma, il progresso scientifico necessita del supporto dell’etica, a garanzia del servizio autentico all’essere umano.