Sistemi di intelligenza artificiale (AI) sono già molto presenti nelle nostre vite, e lo saranno sempre di più in futuro. Il problema è che i sistemi di AI non sono privi di rischi, né infallibili. Uno dei problemi sta nel fatto che i complessi algoritmi utilizzati, e i dati con cui tali modelli vengono “allenati”, tendono a rispecchiare i pregiudizi e le distorsioni della società che li produce. Il rischio è quindi di sviluppare tecnologie che, per quanto accurate nel loro funzionamento interno, rinforzino pregiudizi e discriminazioni in atto nella nostra società. Questi difetti sono difficili da affrontare perché il funzionamento interno della maggior parte di questi modelli è precluso ai ricercatori. L’Unione europea stia sviluppando da tempo il suo piano per un’intelligenza artificiale “affidabile” (trustworthy).

Interessante in questo senso l’esperimento che sta conducendo un team internazionale di circa mille volontari, incentrato sull’elaborazione del linguaggio naturale, di cui scrive Nature. Addestrato con “7 milioni di dollari di tempo di calcolo”, finanziato pubblicamente, il modello linguistico BLOOM si propone di competere con quelli realizzati da aziende come Google e OpenAI, ma sarà open-source. BLOOM sarà anche il primo modello multilingue di questa portata.

Il gruppo di ricerca, denominato BigScience, ha lanciato una prima versione del modello il 17 giugno e spera di poter contribuire a ridurre i risultati dannosi dei sistemi linguistici di intelligenza artificiale. I modelli che riconoscono e generano il linguaggio sono sempre più utilizzati dalle grandi aziende tecnologiche in applicazioni che vanno dai chat bot ai traduttori.

Sebbene i modelli di questo tipo siano impressionanti per i risultati che sono in grado di ottenere, per esempio generando poesie o rispondere correttamente a quesiti di vario tipo, non hanno idea del significato del linguaggio, il che fa sì che creino anche parole incomprensibili. Inoltre, cosa ancora più preoccupante, possono promuovere forme di abuso o di autolesionismo e riprodurre riferimenti razzisti o sessisti già presenti nei testi scritti dagli esseri umani, come ad esempio il collegamento tra Islam e terrorismo.

La qualità dei dati usati per addestrare i modelli di AI sono importanti tanto quanto i modelli stessi, quindi un compito importante è stato quello di selezionare i testi da cui il modello avrebbe dovuto imparare. La maggior parte di queste tecnologie normalmente preleva i testi direttamente dal web. I ricercatori di BigScience hanno invece selezionato a mano quasi due terzi del loro dataset di 341 miliardi di parole provenienti da 500 fonti.

BLOOM non sarà privo di pregiudizi. Ma attingendo da fonti multiculturali e di alta qualità, il team spera di migliorare i modelli esistenti. Inoltre, poiché il codice e i dati alla base del modello sono aperti, i ricercatori possono cercare di capire le radici dei comportamenti dannosi, migliorando così le future iterazioni.

Il modello BLOOM, una volta addestrato, sarà disponibile per il download per i ricercatori che vogliono sperimentarlo o addestrarlo su nuovi dati per applicazioni specifiche. Ma scaricarlo ed eseguirlo richiede una notevole capacità hardware. Poiché tale capacità è disponibile per pochi gruppi di ricerca, BigScience pubblicherà anche versioni più piccole e meno impegnative dal punto di vista dell’hardware, oltre a creare un sistema distribuito che consentirà ai laboratori di condividere il modello tra i loro server. Inoltre, Hugging Face rilascerà un’applicazione web che consentirà a chiunque di interrogare BLOOM senza scaricarlo.

BLOOM potrebbe trovare impiego nella ricerca al di fuori dell’IA. Francesco de Toni, linguista presso l’Università dell’Australia Occidentale a Perth, è a capo di un gruppo di lavoro BigScience che sta studiando l’uso di modelli per estrarre informazioni da raccolte di testi storici troppo grandi da analizzare a mano. I modelli possono, ad esempio, estrarre tutti i nomi o i beni citati in una raccolta di lettere di mercanti rinascimentali, informazioni che sarebbe impossibile trovare con un motore di ricerca.

(Foto di Alina Grubnyak su Unsplash)

Questo articolo è solo un pezzetto

Scrivere ci piace, ma l’attività principale di Avis Legnano è la sensibilizzazione alla donazione di sangue. Per partecipare a questo progetto basta compilare il modulo d’iscrizione.

Lo trovi qui