Questo modello di linguaggio di grandi dimensioni è stato addestrato sul dark web per valutare le minacce alla sicurezza informatica. Ecco cosa devi sapere.
La popolarità dei modelli linguistici di grandi dimensioni (LLM) è in aumento, con nuovi che entrano continuamente in scena. Questi modelli, come ChatGPT, sono generalmente addestrati su varie fonti Internet, inclusi articoli, siti Web, libri e social media.
Con una mossa senza precedenti, un team di ricercatori sudcoreani ha sviluppato DarkBERT, un LLM addestrato su set di dati presi esclusivamente dal dark web. Il loro obiettivo era creare uno strumento di intelligenza artificiale che superi i modelli linguistici esistenti e assista i ricercatori sulle minacce, le forze dell'ordine e i professionisti della sicurezza informatica nella lotta contro le minacce informatiche.
Cos'è DarkBERT?
DarkBERT è un modello di encoder basato su trasformatore basato sull'architettura RoBERTa. Il LLM è stato addestrato su milioni di pagine Web oscure, inclusi dati provenienti da forum di hacking, siti Web di truffa e altre fonti online associate ad attività illegali.
Il termine "dark web" si riferisce a una sezione Internet nascosta inaccessibile tramite browser web standard. La sottosezione è rinomata per ospitare siti Web e mercati anonimi famigerati per attività illegali, come il commercio di dati rubati, droghe e armi.
Per addestrare DarkBERT, i ricercatori hanno guadagnato accesso al web oscuro attraverso la rete Tor e raccolto dati grezzi. Hanno accuratamente filtrato questi dati utilizzando tecniche come la deduplicazione, il bilanciamento delle categorie e la pre-elaborazione creare un raffinato database del dark web, che è stato poi fornito a RoBERTa nel corso di circa 15 giorni per la creazione ScuroBERT.
Possibili usi di DarkBERT nella sicurezza informatica
DarkBERT ha una notevole comprensione del linguaggio dei criminali informatici ed eccelle nell'individuare potenziali minacce specifiche. Può ricercare il dark web e identificare e segnalare con successo le minacce alla sicurezza informatica come perdite di dati e ransomware, rendendolo uno strumento potenzialmente utile per combattere le minacce informatiche.
Per valutare l'efficacia di DarkBERT, i ricercatori lo hanno confrontato con due rinomati modelli di PNL, BERT e RoBERTa, valutando le loro prestazioni in tre casi d'uso cruciali relativi alla sicurezza informatica, la ricerca, postato su arxiv.org, indica.
1. Monitora i forum del Dark Web alla ricerca di thread potenzialmente dannosi
Il monitoraggio dei forum del dark web, comunemente utilizzati per lo scambio di informazioni illecite, è fondamentale per identificare thread potenzialmente pericolosi. Tuttavia, la loro revisione manuale può richiedere molto tempo, rendendo l'automazione del processo vantaggiosa per gli esperti di sicurezza.
I ricercatori si sono concentrati su attività potenzialmente dannose nei forum di hacking, elaborando linee guida per le annotazioni per thread degni di nota, inclusa la condivisione di dati riservati e la distribuzione di malware critico o vulnerabilità.
DarkBERT ha superato gli altri modelli linguistici in termini di precisione, richiamo e punteggio F1, emergendo come la scelta migliore per identificare thread degni di nota nel dark web.
2. Rileva siti che ospitano informazioni riservate
Gli hacker e i gruppi di ransomware utilizzano il dark web per creare siti di fuga, dove pubblicano dati riservati rubati da organizzazioni che si rifiutano di soddisfare le richieste di riscatto. Altri criminali informatici caricano semplicemente dati sensibili trapelati, come password e informazioni finanziarie, nel dark web con l'intenzione di venderli.
Nel loro studio, i ricercatori hanno raccolto dati da famigerati gruppi di ransomware e ha analizzato i siti di fuga di ransomware che pubblicano i dati privati delle organizzazioni. DarkBERT ha superato altri modelli linguistici nell'identificare e classificare tali siti, mostrando la sua comprensione del linguaggio utilizzato nei forum di hacking clandestini sul dark web.
DarkBERT sfrutta la funzione fill-mask, una caratteristica intrinseca dei modelli linguistici della famiglia BERT, per identificare con precisione le parole chiave associate ad attività illegali, tra cui la vendita di droga sul dark web.
Quando la parola "MDMA" è stata mascherata in una pagina di vendita di droga, DarkBERT ha generato parole correlate alla droga, mentre altri modelli hanno suggerito parole e termini generici non correlati alla droga, come varie professioni.
La capacità di DarkBERT di identificare parole chiave correlate ad attività illecite può essere preziosa per tracciare e affrontare le minacce informatiche emergenti.
DarkBERT è accessibile al grande pubblico?
DarkBERT non è attualmente disponibile al pubblico, ma i ricercatori sono aperti alle richieste di utilizzo per scopi accademici.
Sfrutta la potenza dell'IA per il rilevamento e la prevenzione delle minacce
DarkBERT è stato preaddestrato sui dati del dark web e supera i modelli linguistici esistenti in molteplici casi d'uso di sicurezza informatica, posizionandosi come uno strumento cruciale per far progredire la ricerca sul dark web.
L'intelligenza artificiale addestrata dal dark web ha il potenziale per essere utilizzata per varie attività di sicurezza informatica, inclusa l'identificazione di siti Web che vendono trapelati dati riservati, monitoraggio dei forum del dark web per rilevare la condivisione illecita di informazioni e identificazione di parole chiave relative al cyber minacce.
Ma dovresti sempre ricordare che, come altri LLM, DarkBERT è un lavoro in corso e le sue prestazioni possono essere migliorate attraverso la formazione continua e la messa a punto.