Site icon Techbusiness

Deceptive Delight: come i cybercriminali attaccano i Large Language Model tramite camouflage e distrazione

Deceptive Delight: come i cybercriminali attaccano i Large Language Model tramite camouflage e distrazione thumbnail

Al giorno d’oggi, la sicurezza informatica è sempre più messa a rischio da numerosi attacchi informatici, e i cybercriminali possono sfruttare e attaccare qualsiasi falla presente in un sistema; tra questi anche quelli basati sull’Intelligenza Artificiale, utilizzando Deceptive Delight.

Deceptive Delight è un’innovativa tecnica di cybercrime basata sul camouflage e sulla distrazione, che punta ad attaccare i Large Language Model. In questo modo, c’è il serio rischio che la GenAI crei del contenuto non sicuro. Questo è ciò che hanno scoperto gli addetti ai lavori di Unit 42, il threat intelligence team di Palo Alto Networks. Secondo il loro report, questa tecnica riuscirebbe ad aggirare le protezioni di otto Large Language Model di ultima generazione.

Deceptive Delight e gli attacchi alla GenAI

Le rilevazioni di Unit 42 hanno evidenziato delle importanti vulnerabilità nei sistemi di AI. Pertanto, il team di Palo Alto Networks ha spiegato che è necessario alzare ulteriormente i livelli di guardia contro questi nuovi attacchi informatici, che possono essere molto pericolosi per i sistemi di AI.

Le caratteristiche di Deceptive Delight

Nonostante sia una tecnica relativamente nuova, i cybercriminali, sfruttandola, hanno un tasso di successo del 65%. Infatti, questa tecnica è efficace in 8000 casi su 8 diversi Large Language Model, un numero altissimo che desta numerose preoccupazioni. Questo 65% è molto più alto del misero 5.8% ottenuto inviando argomenti e contenuti non sicuri direttamente ai modelli, senza utilizzare alcuna tecnica di jailbreak.

I cybercriminali che sfruttano Deceptive Delight poi inviano degli argomenti non sicuri in conversazioni apparentemente normali. In questo modo si ingannano abilmente i LLM, indotti a produrre argomenti dannosi mentre si concentrano su dettagli innocui.

Viene dunque utilizzato un modello a turni, dove il Large Language Model viene sollecitato attraverso più interazioni consecutive. Questo porta ad aumentare la gravità dell’output generato, ma non solo. In questo modo si rischia che il sistema di GenAI generi dei contenuti non sicuri e potenzialmente pericolosi, secondo le rivelazioni di Unit 42.

L'Intelligenza Artificiale può aiutare nella sicurezza per le aziende

Le gravi vulnerabilità degli LLM

E Deceptive Delight non ha chissà quale approccio complesso o elaborato nei confronti degli LLM, tutt’altro. Questa tecnica sfruttata dai cybercriminali ha come caratteristica principale di sfruttare una vulnerabilità specifica degli LLM, ovvero la bassa “soglia di attenzione“. In questa maniera, gli LLM sono vulnerabili alla distrazione quando elaborano testi con una logica complessa. E la tecnica di Deceptive Delight sfrutta proprio ciò, inserendo contenuti non sicuri accanto ad argomenti benevoli.

Black Friday con Nord VPN, Ottieni da questo link fino al 70% di Sconto + 3 mesi extra

E non è tutto. I Large Language Model, come gli esseri umani, hanno una capacità limitata di conservare informazioni. In questo modo, diminuisce la loro consapevolezza del contesto mentre generano risposte, e questa, come sottolineato da Unit 42, è una grave falle sfruttata da questa nuova tecnica di cybercrime. Gli LLM possono trascurare dettagli critici di una conversazione, finendo per farsi sfruttare dai cybercriminali.

Richieste innocue mescolate a materiale potenzialmente nocivo e pericoloso causano scarsa attenzione negli LLM. Questa loro limitata capacità di osservazione rischia di valutare in modo poco coerente l’intero
contesto, portando a una serie di gravi problematiche.

Il problema del jailbreak

Questo problema rappresenta una sfida dalle molteplici sfaccettature, che deriva dalla complessità
intrinseca dell’elaborazione del linguaggio naturale. Vi è anche il dilemma dell’equilibrio tra usabilità e restrizioni e dalle attuali limitazioni nell’addestramento all’allineamento per i modelli linguistici. Nonostante si possano fare grandi passi in avanti nell’ambito della sicurezza, Unit 42 sottolinea che nessun LLM sarà mai immune da attacchi.

Ma tutti questi risultati mostrati dal threat intelligence team di Palo Alto Networks non indicano che l’AI sia intrinsecamente insicura. Questi dati stanno semplicemente a significare che sono necessarie strategie di difesa più avanzate, come prompt engineering e filtri per contenuti, per difendersi dai rischi di jailbreak.

Exit mobile version