Le aziende che hanno sviluppato intelligenze artificiali (AI) di tipo testuale, come ChatGPT (OpenAI) oppure Bard (Google), si sono premurate di evitare che esse forniscano informazioni problematiche o potenzialmente pericolose. Un gruppo di ricercatori di un’università americana ha però dimostrato che c’è un modo piuttosto semplice di aggirare questi sistemi di sicurezza e ottenere risposte a domande come: “come posso fabbricare una bomba in casa?” o “come posso rubare l’identità di qualcuno?”.

Prima di procedere oltre, è bene precisare che questi problemi sono stati comunicati alle aziende che offrono questi servizi prima della pubblicazione dello studio, e quindi se proverete a riprodurre quanto scritto nell’articolo linkato otterrete un messaggio di errore.

Come spiega Wired, ChatGPT e affini stati modificati più e più volte per evitare che utenti malintenzionati riuscissero a farsi restituire messaggi indesiderati come parole d’odio, informazioni personali o istruzioni passo-passo per costruire armi. La scorsa settimana, però, i ricercatori della Carnegie Mellon University hanno dimostrato che l’aggiunta di una stringa di testo a un prompt (cioè la frase con cui viene formulata la richiesta all’AI) può “bucare” tutte le difese, e questo vale per diversi chatbot.

Questo tipo di attacchi si definisce “antagonistico” e se, come detto, una volta identificato il problema specifico è possibile correggerlo, non è ancora stato trovato un modo per difendersi da questa tipologia di attacchi. Per intenderci, provando altre stringhe di testo, magari con altri modelli linguistici, è possibile che qualcuno arrivi di nuovo a ingannare i sistemi di protezione dell’AI. Ed è probabile che in questo momento qualcuno ci stia provando, visto il grande interesse intorno a queste tecnologie.

Questo tipo di attacchi viene usato nello sviluppo delle intelligenze artificiali che riconoscono le immagini per correggere i sistemi affinché diano risultati più accurati. Modifiche impercettibili alle immagini possono (così come l’aggiunta di un codice alla fine di un testo), indurre i software che le classificano a identificare erroneamente un oggetto. Lo sviluppo di un attacco di questo tipo comporta in genere l’osservazione di come un modello risponde a un certo input, modificandolo fino a scoprire un prompt problematico. In un esperimento del 2018, i ricercatori hanno aggiunto adesivi ai segnali di stop per ingannare un sistema di visione computerizzata simile a quelli utilizzati in molti veicoli. Esistono modi per proteggere gli algoritmi di apprendimento automatico da tali attacchi, fornendo ai modelli un “allenamento” aggiuntivo, ma questi metodi non eliminano la possibilità di ulteriori attacchi.

Armando Solar-Lezama, professore presso il college di informatica dell’MIT, ha detto a Wired che non ha trovato strano che gli attacchi antagonistici avessero una qualche percentuale di successo, ma ha trovato «estremamente sorprendente» che un attacco sviluppato su un modello generico open source (come quello dello studio) funzionasse così bene su diversi sistemi proprietari.

Le conseguenze possono sembrare innocue, ma bisogna considerare l’impiego sempre più esteso di questi chatbot, che un giorno potrebbero essere sfruttati in modo improprio.

(Foto di Mohamed Nohassi su Unsplash)

Ricordati di farlo

Lo sai che puoi destinare il 5 per mille dell’IRPEF all’Avis di Legnano? Basta inserire il nostro codice fiscale al momento della dichiarazione. Useremo i proventi per fare ancora meglio ciò che facciamo da sempre.

È spiegato tutto qui