Potresti aver sentito parlare di attacchi contraddittori in relazione all'intelligenza artificiale e all'apprendimento automatico, ma cosa sono? Quali sono i loro scopi?
La tecnologia spesso significa che le nostre vite sono più comode e sicure. Allo stesso tempo, tuttavia, tali progressi hanno sbloccato modi più sofisticati con cui i criminali informatici possono attaccarci e corrompere i nostri sistemi di sicurezza, rendendoli impotenti.
L'intelligenza artificiale (AI) può essere utilizzata sia dai professionisti della sicurezza informatica che dai criminali informatici; allo stesso modo, i sistemi di machine learning (ML) possono essere usati sia per il bene che per il male. Questa mancanza di bussola morale ha reso gli attacchi contraddittori nel machine learning una sfida crescente. Quindi cosa sono in realtà gli attacchi contraddittori? Qual è il loro scopo? E come puoi proteggerti da loro?
Cosa sono gli attacchi contraddittori nell'apprendimento automatico?
Adversarial ML o attacchi adversarial sono attacchi informatici che mirano a ingannare un modello ML con input dannosi e quindi portare a una minore precisione e prestazioni scadenti. Quindi, nonostante il suo nome, l'adversarial ML non è un tipo di apprendimento automatico, ma una varietà di tecniche che i criminali informatici, ovvero gli avversari, utilizzano per prendere di mira i sistemi ML.
L'obiettivo principale di tali attacchi è solitamente quello di indurre il modello a distribuire informazioni sensibili, non riuscire a rilevare attività fraudolente, produrre previsioni errate o corrompere analisi basate rapporti. Sebbene esistano diversi tipi di attacchi contraddittori, spesso prendono di mira il rilevamento dello spam basato sul deep learning.
Probabilmente hai sentito parlare di un attacco dell'avversario nel mezzo, che è una nuova e più efficace tecnica di phishing sofisticata che comporta il furto di informazioni private, cookie di sessione e persino l'elusione dei metodi di autenticazione a più fattori (MFA). Fortunatamente, puoi combatterli con tecnologia MFA resistente al phishing.
Tipi di attacchi contraddittori
Il modo più semplice per classificare i tipi di attacchi contraddittori è separarli in due categorie principali:attacchi mirati E attacchi non mirati. Come suggerito, gli attacchi mirati hanno un bersaglio specifico (come una persona in particolare) mentre quelli non mirati non hanno in mente nessuno specifico: possono prendere di mira quasi chiunque. Non sorprende che gli attacchi non mirati richiedano meno tempo ma anche meno successo rispetto alle loro controparti mirate.
Questi due tipi possono essere ulteriormente suddivisi in scatola bianca E scatola nera attacchi contraddittori, dove il colore suggerisce la conoscenza o la mancanza di conoscenza del modello ML preso di mira. Prima di approfondire gli attacchi white box e black box, diamo una rapida occhiata ai tipi più comuni di attacchi contraddittori.
- Evasione: utilizzati principalmente in scenari di malware, gli attacchi di evasione tentano di eludere il rilevamento nascondendo il contenuto di e-mail infestate da malware e spam. Utilizzando il metodo per tentativi ed errori, l'attaccante manipola i dati al momento della distribuzione e corrompe la riservatezza di un modello ML. Lo spoofing biometrico è uno degli esempi più comuni di attacco di evasione.
- Avvelenamento dei dati: noti anche come attacchi contaminanti, mirano a manipolare un modello ML durante il periodo di addestramento o distribuzione e a ridurre la precisione e le prestazioni. Introducendo input dannosi, gli aggressori interrompono il modello e rendono difficile per i professionisti della sicurezza rilevare il tipo di dati campione che corrompe il modello ML.
- Difetti bizantini: Questo tipo di attacco provoca la perdita di un servizio di sistema a seguito di un errore bizantino nei sistemi che richiedono il consenso tra tutti i suoi nodi. Una volta che uno dei suoi nodi fidati diventa canaglia, può scatenare un attacco denial-of-service (DoS) e arrestare il sistema impedendo agli altri nodi di comunicare.
- Estrazione del modello:In un attacco di estrazione, l'avversario sonderà un sistema ML black-box per estrarne i dati di addestramento o, nel peggiore dei casi, il modello stesso. Quindi, con una copia di un modello ML nelle proprie mani, un avversario potrebbe testare il proprio malware rispetto all'antimalware/antivirus e capire come aggirarlo.
- Attacchi di inferenza: Come con gli attacchi di estrazione, l'obiettivo qui è fare in modo che un modello ML perda informazioni sui suoi dati di addestramento. Tuttavia, l'avversario proverà quindi a capire quale set di dati è stato utilizzato per addestrare il sistema, in modo da poterne sfruttare le vulnerabilità o i pregiudizi.
Scatola bianca vs. Scatola nera vs. Attacchi contraddittori in scatola grigia
Ciò che distingue questi tre tipi di attacchi contraddittori è la quantità di conoscenza che gli avversari hanno sul funzionamento interno dei sistemi ML che intendono attaccare. Mentre il metodo white-box richiede informazioni esaustive sul modello ML mirato (incluso il suo architettura e parametri), il metodo della scatola nera non richiede informazioni e può solo osservarle uscite.
Il modello della scatola grigia, nel frattempo, si trova nel mezzo di questi due estremi. Secondo esso, gli avversari possono avere alcune informazioni sul set di dati o altri dettagli sul modello ML, ma non tutto.
Come puoi difendere l'apprendimento automatico dagli attacchi contraddittori?
Sebbene gli esseri umani siano ancora la componente fondamentale nel rafforzamento della sicurezza informatica,AI e ML hanno imparato a rilevare e prevenire attacchi dannosi—possono aumentare la precisione del rilevamento di minacce dannose, del monitoraggio dell'attività degli utenti, dell'identificazione di contenuti sospetti e molto altro ancora. Ma possono respingere gli attacchi avversari e proteggere i modelli ML?
Un modo per combattere gli attacchi informatici è addestrare i sistemi ML a riconoscere in anticipo gli attacchi avversari aggiungendo esempi alla loro procedura di addestramento.
A differenza di questo approccio di forza bruta, il metodo di distillazione difensiva propone di utilizzare il modello primario e più efficiente per calcolare le caratteristiche critiche di un modello secondario meno efficiente e quindi migliorare l'accuratezza del secondario con il primario uno. I modelli ML addestrati con la distillazione difensiva sono meno sensibili ai campioni avversari, il che li rende meno suscettibili allo sfruttamento.
Potremmo anche modificare costantemente gli algoritmi utilizzati dai modelli ML per la classificazione dei dati, il che potrebbe rendere meno efficaci gli attacchi avversari.
Un'altra tecnica degna di nota è la compressione delle funzionalità, che ridurrà lo spazio di ricerca disponibile per gli avversari "spremendo" le funzionalità di input non necessarie. In questo caso, l'obiettivo è ridurre al minimo i falsi positivi e rendere più efficace il rilevamento degli esempi contraddittori.
Protezione dell'apprendimento automatico e dell'intelligenza artificiale
Gli attacchi contraddittori ci hanno mostrato che molti modelli ML possono essere distrutti in modi sorprendenti. Dopotutto, l'adversarial machine learning è ancora un nuovo campo di ricerca nell'ambito della sicurezza informatica e presenta molti problemi complessi per AI e ML.
Sebbene non esista una soluzione magica per proteggere questi modelli da tutti gli attacchi avversari, il il futuro probabilmente porterà tecniche più avanzate e strategie più intelligenti per affrontare questo terribile avversario.