AGI – Una nuova ricerca ha rivelato debolezze in uno dei sistemi di intelligenza artificiale (IA) di maggior successo – un bot che gioca al gioco da tavolo Go e che può battere i migliori giocatori umani del mondo – dimostrando che la supposta superiorità delle IA sugli esseri umani potrebbe non essere cosi’ scontata neanche in futuro. Lo studio solleva interrogativi sul fatto che i sistemi di IA più generale possano essere esenti da vulnerabilità che potrebbero compromettere la loro sicurezza e affidabilità, e appunto la loro pretesa di essere “sovrumani”.
“Il paper lascia un significativo punto interrogativo su come raggiungere l’ambizioso obiettivo di costruire agenti AI solidi nel mondo reale di cui le persone possano fidarsi”, afferma Huan Zhang, informatico presso l’Università dell’Illinois Urbana-Champaign sentito da “Nature”.
L’analisi, pubblicata online come preprint e non sottoposta a revisione paritaria, si avvale di quelli che vengono chiamati attacchi avversari, ovvero l’alimentazione dei sistemi di intelligenza artificiale con input progettati per indurre i sistemi a commettere errori, sia per la ricerca che per scopi nefasti. Ad esempio, alcuni prompt possono “jailbreak” dei chatbot, facendogli fornire informazioni dannose che erano stati addestrati a sopprimere. Nel Go, due giocatori si alternano nel posizionare pietre nere e bianche su una griglia per circondare e catturare le pietre dell’altro giocatore.
Nel 2022 dei ricercatori avevano riferito di aver addestrato bot AI avversari per sconfiggere KataGo, il miglior sistema AI open source per giocare a Go, che in genere batte facilmente i migliori giocatori umani. I loro bot hanno trovato regolarmente modi per battere KataGo, anche se non erano proprio validissimi in generale bravi: gli umani dilettanti potevano batterli. Inoltre, gli umani potevano capire i trucchi dei bot e adottarli per battere KataGo.
Si è trattato di un caso isolato o quel lavoro ha evidenziato una debolezza fondamentale in KataGo e, per estensione, in altri sistemi di intelligenza artificiale con capacità apparentemente sovrumane?
Per indagare, nuovi ricercatori, guidati da Adam Gleave, amministratore delegato di FAR AI, un’organizzazione di ricerca senza scopo di lucro di Berkeley, California e coautore del documento del 2022, hanno utilizzato bot avversari per testare tre modi per difendere le IA Go da tali attacchi. La prima difesa era quella che gli sviluppatori di KataGo avevano già implementato dopo gli attacchi del 2022: fornire a KataGo esempi di posizioni della scacchiera coinvolte negli attacchi e farlo giocare da solo per imparare a giocare contro quelle posizioni.
Ma gli autori dell’ultimo articolo hanno scoperto che un bot avversario potrebbe imparare a battere anche questa versione aggiornata di KataGo, vincendo il 91 per cento delle volte.
La seconda strategia difensiva che il team di Gleave ha provato è stata iterativa: allenare una versione di KataGo contro i bot avversari, quindi allenare gli aggressori contro il KataGo aggiornato e cosi’ via, per nove round. Ma neanche questo ha prodotto una versione imbattibile di KataGo.
Come terza strategia difensiva, i ricercatori hanno addestrato da zero un nuovo sistema AI per giocare a Go. KataGo si basa su un modello di calcolo noto come rete neurale convoluzionale (CNN). I ricercatori sospettavano che le CNN potessero concentrarsi troppo sui dettagli locali e perdere di vista i pattern globali, quindi hanno creato un giocatore di Go utilizzando una rete neurale alternativa chiamata trasformatore di visione (ViT).
Ma il loro bot avversario ha trovato un nuovo attacco che lo ha aiutato a vincere il 78 per cento delle volte contro il nuovo sistema ViT. In tutti questi casi, i bot avversari, sebbene in grado di battere KataGo e altri sistemi di gioco di Go di alto livello, sono stati addestrati a scoprire vulnerabilità nascoste in altre IA, non a essere strateghi completi. “I bot sono piuttosto deboli, li abbiamo battuti noi stessi abbastanza facilmente”, afferma Gleave.
E con gli umani in grado di usare le tattiche dei bot avversari per battere i sistemi esperti di intelligenza artificiale, ha ancora senso chiamare quei sistemi sovrumani? David Wu, un informatico di New York City che per primo ha sviluppato KataGo, afferma che le forti IA Go sono “sovrumane in media” ma non “sovrumane nei casi peggiori”. Gleave afferma che i risultati potrebbero avere ampie implicazioni per i sistemi di intelligenza artificiale, inclusi i grandi modelli linguistici alla base di chatbot come ChatGPT . “La conclusione fondamentale per l’intelligenza artificiale è che queste vulnerabilità saranno difficili da eliminare”, afferma Gleave. “Se non riusciamo a risolvere il problema in un dominio semplice come Go, allora nel breve termine sembrano esserci poche prospettive di risolvere problemi simili come i jailbreak in ChatGPT”.