Intelligenza artificiale e privacy. L'addestramento dei sistemi di IA, che sempre più spesso include anche dati personali e violazione di privacy

06/11/2023

E’ ormai noto che i nuovi sistemi di intelligenza artificiale (IA) generativa sono in grado di produrre “autonomamente” immagini e testi. Questa loro capacità, in realtà, si basa su una sorta di addestramento previo, effettuato mediante l’immissione di milioni di dati che fanno da modello. Stiamo parlando di montagne di opere creative, prodotte da persone reali, molte delle quali protette da copyright (con conseguenti cause legali che i principali sviluppatori di IA, tra cui OpenAI, Meta e Stability AI, stanno già cominciando ad affrontare, oltre all’ira crescente di artisti e scrittori).

Pochi mesi fa, ad esempio, “The Atlantic” ha riportato la scoperta che Meta ha addestrato il suo modello linguistico di grandi dimensioni (LLM), servendosi – almeno in parte – di un insieme di dati chiamato Books3, contenente più di 170.000 libri piratati e protetti da copyright.

Ma i libri già scritti non sono l’unico “cibo” utile all’IA generativa. Gli sviluppatori, infatti, sempre più spesso ricorrono anche ai contenuti di Internet che possono essere sottoposti a ricerca. Ciò avviene mediante strumenti automatizzati che catalogano ed estraggono dati da Internet: i “crawler” (software che visitano i siti web, rilevando tutto il contenuto analizzabile, inclusi tutti i collegamenti interni ed esterni, per poi memorizzarli in un database) e gli “scraper” (scaricano ed estraggono le stesse informazioni).

Tutto ciò genera un problema ulteriore: non solo la potenziale violazione degli eventuali diritti d’autore, ma anche la violazione della privacy dei miliardi di persone che condividono informazioni on line. Inoltre, data la possibile natura “fallace” dei dati presenti su Internet, è reale il rischio che modelli apparentemente neutrali di IA siano, di fatto, addestrati su dati distorti.

In pratica, crawler e scraper possono accedere facilmente ai dati da qualsiasi luogo che non sia protetto da una pagina di login. Rimangono esclusi i profili dei social media impostati come privati. Ma, per contro, i dati visualizzabili in un motore di ricerca o senza accedere a un sito (ad esempio, un profilo pubblico di LinkedIn) potrebbero comunque essere acquisiti. “C’è il tipo di cose – avverte Jesse Dodge, ricercatore in apprendimento automatico, dell’istituto no profit Allen Institute for AI – che finiscono sicuramente in questi scraper del Web, tra cui blog, pagine web personali e siti aziendali”. In aggiunta, sono inclusi tutti i contenuti del popolare sito di condivisione di fotografie Flickr, i mercati on line, i database di registrazione degli elettori, le pagine web governative, Wikipedia, Reddit, archivi della ricerca, le testate giornalistiche e le istituzioni accademiche. Alcuni crawler e scraper di dati, poi, sono persino in grado di superare i “paywall” (compresi quelli di “Scientific American”), camuffandosi dietro account a pagamento. Gli scraper del web possono anche raccogliere sorprendenti tipi di informazioni personali di origine poco chiara. Ben Zhao, informatico dell’Università di Chicago, cita un esempio particolarmente eclatante: un’artista ha scoperto che una sua immagine medica diagnostica privata era inclusa nel database LAION!

Va poi considerato che, nell’addestramento dei modelli di IA, le aziende sviluppatrici potrebbero incorporare di proposito altre fonti, compresi i propri dati interni. OpenAI, ad esempio, mette a punto i suoi modelli in base alle interazioni degli utenti con i suoi chatbot. Meta ha dichiarato che la sua ultima IA è stata parzialmente addestrata sui post pubblici di Facebook e Instagram. Persino Amazon ha dichiarato che userà i dati vocali delle conversazioni con Alexa dei propri clienti per addestrare il suo nuovo LLM.

Ma poi ci sono le fonti di dati non chiarificate. Google, per esempio, non ha specificato le sue fonti di dati nel modello di intelligenza artificiale PaLM2 recentemente rilasciato, oltre a dichiarare che per addestrare PaLM2 sono stati usati molti più dati rispetto alla versione originale di PaLM. OpenAI ha scritto che non ha voluto rivelare alcun dettaglio sul suo insieme di dati di addestramento o sul suo metodo per GPT-4, citando la concorrenza come una delle principali preoccupazioni.

Uno dei rischi maggiori è che questi sistemi di IA possano in un dato momento “rigurgitare” lo stesso materiale che è stato usato per addestrarli, compresi dati personali sensibili e lavori protetti da copyright. E’ vero che molti modelli di IA generativa sono dotati di blocchi che impediscono loro di condividere informazioni identificative sulle persone, ma i ricercatori hanno ripetutamente dimostrato che è possibile aggirare queste restrizioni.

Merita attenzione il fatto che la mancanza di trasparenza sui dati di addestramento possa generare anche seri problemi legati alla parzialità dei dati. “Sappiamo tutti – spiega Meredith Broussard, giornalista specializzata in dati che svolge ricerche sull’intelligenza artificiale alla New York University – che su Internet ci sono cose meravigliose e materiale estremamente tossico”. Insiemi di dati come Common Crawl, ad esempio, includono siti web di suprematisti bianchi e discorsi di odio. Anche fonti di dati meno estreme includono contenuti che promuovono gli stereotipi. Inoltre, c’è molta pornografia on line. “Di conseguenza – aggiunge Broussard – i generatori di immagini AI tendono a produrre immagini sessualizzate di donne. Si tratta di un pregiudizio nel pregiudizio”.

Ma è possibile proteggere efficacemente i dati “riservati”? Purtroppo, al momento sono pochi gli strumenti disponibili per tenere i dati fuori dalle grinfie dei modelli di IA. Dal punto di vista legale, in California e in una manciata di altri Stati degli Stati Uniti, le leggi sulla privacy digitale recentemente approvate danno ai consumatori il diritto di chiedere alle aziende di cancellare i loro dati. Anche nell’Unione Europea i cittadini hanno diritto alla cancellazione dei dati. Tuttavia, finora le aziende di IA hanno respinto tali richieste, sostenendo che la provenienza dei dati non può essere dimostrata o ignorando del tutto le richieste. Si impone, dunque, la necessità di una riflessione ulteriore, per una più efficace regolamentazione del settore.

Maurizio Calipari

Fonte: Sir