Abilità emergenti. Alcuni aspetti ancora "misteriosi" (anche in termini funzionali) dei sistemi di IA

Neanche gli studiosi riescono a spiegarseli, lasciando molti dubbi sulla reale capacità attuale di regolare e gestire in modo comune questo settore

20/11/2023

Intelligenza artificiale (IA): questa sconosciuta! Già, probabilmente nessuno sa ancora come e fino a che punto ChatGPT e sistemi simili di IA cambieranno il nostro modo di vivere. Sia per le loro potenzialità crescenti, sia perché – a quanto dicono gli esperti -nessuno sa ancora davvero cosa accade dentro di loro. Le evidenze, infatti, attestano come alcune capacità di questi sistemi, inaspettatamente, vadano ben oltre ciò per cui sono stati addestrati, senza che perfino i loro inventori ne sappiano spiegare il motivo.
In altre parole, alcuni di essi sono in grado di sviluppare modelli interni del mondo reale, proprio come fa il nostro cervello (anche se con una tecnica diversa). Il problema è che “se non capiamo come funzionano – nota Ellie Pavlick, della Brown University, tra i ricercatori impegnati a risolvere quella mancanza di spiegazioni – mi sembra ridicolo pensare di poter fare qualcosa per renderli migliori, più sicuri e via dicendo”.
Ma andiamo per ordine. Fino a un certo livello, gli studiosi comprendono perfettamente il GPT (Generative Pretrained Transformer, o “trasformatore generativo preaddestrato”) e gli altri LLM (Large Language Model, o “modelli linguistici di grandi dimensioni”). I modelli si basano su un sistema di apprendimento automatico detto rete neurale. Queste reti hanno una struttura che imita a grandi linee i collegamenti tra i neuroni nel cervello umano. Il codice di questi programmi, relativamente semplice (riempie solo poche schermate), imposta un algoritmo di autocorrezione, che per completare un passaggio sceglie la parola più probabile in base a una laboriosa analisi statistica di centinaia di gigabyte di testi prelevati da Internet. Un ulteriore addestramento, poi, permette al sistema di presentare i risultati sotto forma di dialogo (come può sperimentare direttamente chiunque decida di “farsi una chiacchierata”, ad esempio, con ChatGPT).
Ma le capacità degli LLM non si fermano certo qui. Essi, infatti, sono riusciti anche a superare brillantemente l’esame da avvocato, scrivere un sonetto sul bosone di Higgs e tentare di rovinare il matrimonio degli utenti! Sinceramente, pochi immaginavano che un algoritmo di autocorrezione piuttosto “semplice” potesse acquisire autonomamente capacità così diversificate. Dunque, perfino i ricercatori più scettici sulle potenzialità degli LLM sono rimasti sorpresi sul fatto che GPT e altri sistemi di IA eseguano compiti per i quali non sono stati addestrati, dimostrando di fatto “abilità emergenti”. “Non so come ci riescano – commenta Melanie Mitchell, ricercatrice in intelligenza artificiale al Santa Fe Institute -, o se siano in grado di farlo più in generale come gli esseri umani, ma hanno messo in discussione le mie idee”.
Un altro esempio clamoroso? Lo ha presentato di recente il filosofo Raphaël Millière, della Columbia University, a un convegno all’Università di New York. I modelli di IA avevano già dimostrato la capacità di scrivere codice per computer (un fatto notevole, ma non troppo sorprendente, visto che in Internet si trova moltissimo codice da imitare). Millière però è andato oltre, dimostrando come GPT sia in grado anche di eseguire il codice scritto. In pratica, il filosofo ha ordinato a un programma di calcolare l’ottantatreesimo numero della sequenza di Fibonacci (in matematica, la successione di numeri interi in cui ciascun numero è la somma dei due precedenti, eccetto i primi due che sono, per definizione, 0 e 1). E il bot ci è riuscito benissimo! Ma quando Millière ha chiesto direttamente quale fosse l’ottantatreesimo numero della sequenza di Fibonacci, GPT ha dato la risposta sbagliata. Ciò indica che il sistema, invece di limitarsi a ripetere quanto aveva trovato in Internet, stava eseguendo da sé i calcoli per ottenere la risposta corretta. L’ipotesi di Millière è che la macchina abbia improvvisato una sorta di “memoria di lavoro” (tipica dei computer), sfruttando i suoi meccanismi per interpretare le parole a seconda del contesto, proprio come facciamo noi quando riutilizziamo le capacità già esistenti per sviluppare nuove funzioni. Un’ulteriore evidenza, dunque, che gli LLM sviluppano una complessità interna che va ben oltre un’analisi statistica superficiale. Anzi, a dirla tutta, e stando a quanto scoperto dai ricercatori, questi sistemi sembrano arrivare a una vera e propria “comprensione” di ciò che hanno imparato.
Altro motivo di sorpresa per i ricercatori è quanto gli LLM riescono a imparare dal testo. Ad esempio, la loro capacità di assorbire le descrizioni dei colori da testi presenti in Internet e costruirne delle rappresentazioni interne. Così, quando vedono la parola “rosso”, la elaborano non solo come simbolo astratto, ma anche come un concetto che ha determinati legami con quelli di granata, cremisi, fucsia, ruggine e così via.
Per dimostrarlo, i ricercatori hanno studiato la reazione del sistema a una serie di suggerimenti testuali. Per verificare se il bot stesse solo ripetendo i legami tra colori trovati nei riferimenti online, hanno provato a disorientarlo dicendogli che il rosso in realtà è verde, come nel classico esperimento concettuale filosofico in cui ciò che è rosso per una persona è verde per un’altra. Invece di ripetere come un pappagallo una risposta sbagliata, il sistema ha modificato opportunamente le proprie valutazioni dei colori per mantenere i legami corretti.
Un altro elemento degno di nota è la capacità degli LLM di apprendere in fretta. Nel settore dell’IA, il termine “apprendimento” di solito indica solo il processo in cui gli sviluppatori alimentano la rete neurale con gigabyte di dati e ne perfezionano le connessioni interne. Quando scriviamo una domanda in ChatGPT, la rete dovrebbe essere fissa, senza la capacità – diversamente dalle persone – di continuare a imparare. Con sorpresa, invece, si è constatato che gli LLM imparano (si parla di “apprendimento contestuale”) dai “prompt” degli utenti. “È un tipo di apprendimento diverso, – spiega Ben Goertzel, fondatore dell’azienda di IA SingularityNET – di cui prima non si conosceva l’esistenza”.
Ad ogni modo, anche se gli LLM hanno ancora abbastanza punti ciechi da non potersi definire un’AGI (“intelligenza artificiale generale”, cioè una macchina che raggiunge la versatilità di un cervello animale), queste abilità emergenti portano alcuni ricercatori a ipotizzare che le aziende hi-tech siano più vicine all’AGI di quanto avessero immaginato perfino gli ottimisti. Ma al tempo stesso, proprio gli studiosi temono che le loro possibilità di studiare questi sistemi siano sempre più ridotte. La ragione? La spietata concorrenza di mercato. OpenAI, ad esempio, non ha divulgato i dettagli di come ha progettato e addestrato GPT-4, anche perché si trova in concorrenza con Google e altre aziende, per non parlare di altri paesi. “Probabilmente – preconizza Dan Roberts, fisico teorico del MIT, che applica le tecniche della sua professione alla comprensione dell’IA – ci sarà meno ricerca aperta da parte dell’industria e il tutto sarà più isolato e organizzato per realizzare prodotti”. “Oltre a danneggiare i ricercatori – aggiunge Mitchell, del Santa Fe Institute – questa scarsa trasparenza ostacola i tentativi di capire le conseguenze sociali della corsa ad adottare la tecnologia dell’IA. La trasparenza su questi modelli è la cosa più importante per garantirne la sicurezza”.

Maurizio Calipari

Fonte: Sir