Cosa sono gli attacchi contraddittori contro i modelli di intelligenza artificiale e come puoi fermarli?

I modelli di intelligenza artificiale sono validi solo quanto i dati che li contengono. Ciò rende questi dati un potenziale bersaglio per gli attacchi.

I progressi nell'intelligenza artificiale hanno avuto un'influenza significativa su diversi campi. Ciò ha dato motivo di preoccupazione a un certo numero di appassionati di tecnologia. Man mano che queste tecnologie si espandono in diverse applicazioni, possono provocare un aumento degli attacchi avversari.

Cosa sono gli attacchi contraddittori nell'intelligenza artificiale?

Gli attacchi contraddittori sfruttano le specifiche e le vulnerabilità all'interno dei modelli di intelligenza artificiale. Corrompono i dati da cui i modelli di intelligenza artificiale hanno appreso e fanno sì che questi modelli generino output imprecisi.

Immagina che un burlone cambi le tessere di scarabeo disposte come ananas per diventare "applepine". Questo è simile a ciò che accade negli attacchi contraddittori.

Alcuni anni fa, ottenere alcune risposte o risultati errati da un modello di intelligenza artificiale era la norma. È vero il contrario ora, poiché le imprecisioni sono diventate l'eccezione, con gli utenti di intelligenza artificiale che si aspettano risultati quasi perfetti.

instagram viewer

Quando questi modelli di intelligenza artificiale vengono applicati a scenari del mondo reale, le imprecisioni possono essere fatali, rendendo gli attacchi avversari molto pericolosi. Ad esempio, gli adesivi sui segnali stradali possono confondere un'auto a guida autonoma autonoma e farla entrare nel traffico o direttamente contro un ostacolo.

Tipi di attacchi contraddittori

Ci sono varie forme di attacchi contraddittori. Con il crescente integrazione dell'IA nelle applicazioni quotidiane, questi attacchi probabilmente peggioreranno e diventeranno più complessi.

Tuttavia, possiamo classificare approssimativamente gli attacchi avversari in due tipi in base a quanto l'autore della minaccia conosce il modello AI.

1. Attacchi alla scatola bianca

In attacchi scatola bianca, gli autori delle minacce hanno una conoscenza completa del funzionamento interno del modello di intelligenza artificiale. Ne conoscono le specifiche, i dati di addestramento, le tecniche di elaborazione e i parametri. Questa conoscenza consente loro di costruire un attacco contraddittorio specifico per il modello.

Il primo passo in un attacco white box è modificare i dati di addestramento originali, corrompendoli nel minor modo possibile. I dati modificati saranno ancora molto simili all'originale ma abbastanza significativi da far sì che il modello AI fornisca risultati imprecisi.

Non è tutto. Dopo l'attacco, l'autore della minaccia valuta l'efficacia del modello alimentandolo con esempi contraddittori:input distorti progettati per indurre il modello a commettere errori—e analizza l'output. Più impreciso è il risultato, maggiore è il successo dell'attacco.

2. Attacchi di scatole nere

A differenza degli attacchi white box, in cui l'attore della minaccia conosce i meccanismi interni del modello di intelligenza artificiale, gli autori di attacchi alla scatola nera non ho idea di come funzioni il modello. Osservano semplicemente il modello da un punto cieco, monitorandone i valori di input e output.

Il primo passo in un attacco scatola nera è selezionare l'obiettivo di input che il modello AI vuole classificare. L'autore della minaccia crea quindi una versione dannosa dell'input aggiungendo rumore accuratamente predisposto, perturbazioni ai dati invisibili all'occhio umano ma in grado di provocare il modello AI malfunzionamento.

La versione dannosa viene inserita nel modello e l'output viene osservato. I risultati forniti dal modello aiutano l'autore della minaccia a continuare a modificare la versione fino a quando non sono abbastanza sicuri da classificare erroneamente tutti i dati inseriti.

Tecniche utilizzate negli attacchi contraddittori

Le entità dannose possono utilizzare diverse tecniche per eseguire attacchi contraddittori. Ecco alcune di queste tecniche.

1. Avvelenamento

Gli aggressori possono manipolare (avvelenare) una piccola parte dei dati di input di un modello di intelligenza artificiale per comprometterne i set di dati di addestramento e l'accuratezza.

Esistono diverse forme di avvelenamento. Uno di quelli comuni è chiamato avvelenamento da backdoor, in cui sono interessati pochissimi dati di addestramento. Il modello AI continua a fornire risultati estremamente accurati fino a quando non viene "attivato" per funzionare male al contatto con trigger specifici.

2. Evasione

Questa tecnica è piuttosto letale, in quanto evita il rilevamento inseguendo il sistema di sicurezza dell'IA.

La maggior parte dei modelli AI è dotata di sistemi di rilevamento delle anomalie. Le tecniche di evasione fanno uso di esempi contraddittori che seguono direttamente questi sistemi.

Questa tecnica può essere particolarmente pericolosa contro sistemi clinici come automobili autonome o modelli di diagnostica medica. Questi sono campi in cui le imprecisioni possono avere gravi conseguenze.

3. Trasferibilità

Gli attori delle minacce che utilizzano questa tecnica non hanno bisogno di una conoscenza precedente dei parametri del modello di intelligenza artificiale. Usano attacchi contraddittori che hanno avuto successo in passato contro altre versioni del modello.

Ad esempio, se un attacco contraddittorio fa sì che un modello di classificatore di immagini confonda una tartaruga per un fucile, l'attacco esatto potrebbe far sì che altri modelli di classificatore di immagini commettano lo stesso errore. Gli altri modelli avrebbero potuto essere addestrati su un set di dati diverso e persino avere un'architettura diversa, ma potrebbero comunque essere vittime dell'attacco.

4. Maternità surrogata

Invece di inseguire i sistemi di sicurezza del modello utilizzando tecniche di evasione o attacchi precedentemente riusciti, l'autore della minaccia potrebbe utilizzare un modello surrogato.

Con questa tecnica, l'autore della minaccia crea una versione identica del modello bersaglio, un modello surrogato. I risultati, i parametri e i comportamenti di un surrogato devono essere identici al modello originale che è stato copiato.

Il surrogato sarà ora soggetto a vari attacchi contraddittori fino a quando non si indurrà a produrre un risultato impreciso o eseguire una classificazione errata. Quindi, questo attacco verrà utilizzato sull'IA bersaglio originale.

Come fermare gli attacchi contraddittori

La difesa dagli attacchi avversari può essere complessa e richiedere molto tempo poiché gli attori delle minacce impiegano varie forme e tecniche. Tuttavia, i seguenti passaggi possono prevenire e fermare gli attacchi avversari.

1. Addestramento contraddittorio

Il passo più efficace che può prevenire gli attacchi avversari è l'adversarial training, l'addestramento di modelli e macchine di intelligenza artificiale utilizzando esempi contraddittori. Ciò migliora la robustezza del modello e gli consente di essere resiliente alle minime perturbazioni di input.

2. Controllo regolare

È necessario verificare regolarmente la presenza di punti deboli nel sistema di rilevamento delle anomalie di un modello AI. Ciò comporta l'alimentazione deliberata del modello con esempi contraddittori e il monitoraggio del comportamento del modello rispetto all'input dannoso.

3. Sanificazione dei dati

Questo metodo prevede il controllo di input dannosi inseriti nel modello. Dopo averli identificati, devono essere rimossi immediatamente.

Questi dati possono essere identificati utilizzando la convalida dell'input, che implica il controllo dei dati per modelli o firme di esempi contraddittori precedentemente noti.

4. Aggiornamenti di sicurezza

Sarebbe difficile sbagliare con gli aggiornamenti di sicurezza e le patch. Sicurezza a più livelli come firewall, programmi anti-malware e sistemi di rilevamento e prevenzione delle intrusioni può aiutare a bloccare l'interferenza esterna degli attori delle minacce che vogliono avvelenare un modello di intelligenza artificiale.

Gli attacchi contraddittori potrebbero essere un degno avversario

Il concetto di attacchi contraddittori presenta un problema per l'apprendimento avanzato e l'apprendimento automatico.

Di conseguenza, i modelli di intelligenza artificiale devono essere armati di difese come formazione avversaria, audit regolari, sanificazione dei dati e aggiornamenti di sicurezza pertinenti.

About Technology - denizatm.com