Come collegare tutti i punti in un panorama di minacce complesso
Originariamente pubblicato in Infowatch di sicurezza
AUTORI DAVIDE BARTONDOTT. ALBERT ZHICHUN LI

(IMMAGINE PER GENTILE CONCESSIONE DI BIGSTOCK.COM)
Con l'aumento del volume degli attacchi informatici, gli analisti della sicurezza sono stati sopraffatti. Per risolvere questo problema, gli sviluppatori mostrano maggiore interesse nell'utilizzo del Machine Learning (ML) per automatizzare la caccia alle minacce. In effetti, i ricercatori hanno cercato di implementare il ML nelle soluzioni di sicurezza informatica dalla fine degli anni '1980, ma i progressi sono stati lenti. Oggi, il ML si sta dimostrando sempre più promettente con l'avvento dei Big Data perché la qualità delle informazioni da cui il ML può apprendere sta migliorando. Tuttavia, resta ancora molto da fare.
Rilevamento delle anomalie - I primi giorni
Quando parliamo di sicurezza, vogliamo un sistema in grado di separare il bene dal male, normale da anormale. Pertanto, è abbastanza naturale applicare il rilevamento delle anomalie alla sicurezza. Possiamo risalire all'inizio del rilevamento delle anomalie nel 19871 quando i ricercatori hanno iniziato a costruire sistemi di rilevamento delle intrusioni (IDS). Intorno al 1998-1999, DARPA (l'agenzia governativa che ha creato Internet), ha creato set di benchmark e ha richiesto la ricerca sui metodi di ML nella sicurezza2. Sfortunatamente, pochi dei risultati sono stati abbastanza pratici e ancora meno prodotti sono arrivati alla fase operativa.
Il rilevamento delle anomalie si basa sull'apprendimento non supervisionato, che è un tipo di apprendimento auto-organizzato che aiuta a trovare modelli precedentemente sconosciuti in un set di dati senza l'uso di etichette preesistenti. In sostanza, un sistema basato sull'apprendimento senza supervisione sa cosa è normale e identifica qualsiasi cosa anormale come un'anomalia. Ad esempio, un IDS potrebbe sapere che aspetto ha il traffico "normale" e avviserà su tutte le varianti di traffico che non corrispondono a quella conoscenza, come uno scanner di vulnerabilità. In breve, i sistemi di rilevamento delle anomalie basati sull'apprendimento non supervisionato prendono una decisione binaria (normale / anormale) e non effettuano valutazioni sofisticate. Alcuni si riferiscono alle applicazioni di apprendimento senza supervisione come "problemi di una classe".
Come puoi immaginare, i sistemi basati sull'apprendimento non supervisionato possono generare molti falsi positivi, perché una situazione ritenuta anormale può essere perfettamente innocua (pensa di nuovo allo scanner delle vulnerabilità). Questo è un problema con cui gli analisti della sicurezza devono ancora lottare oggi.
L'ascesa dei Big Data
Dopo il 2000, sviluppatori e ricercatori hanno iniziato a creare sistemi di filtraggio di spam, phishing e URL basati sull'apprendimento supervisionato. Nell'apprendimento supervisionato, le decisioni si basano sul confronto di una serie di dati (o etichette) con una minaccia percepita. Uno di questi esempi è una lista nera di URL, in cui la posta in arrivo viene confrontata con un elenco di URL indesiderati e rifiutata se corrisponde a un'etichetta nell'elenco. Un algoritmo di apprendimento supervisionato analizza i dati e produce una funzione dedotta (cioè, questo comportamento del traffico corrisponde a questi dati di input, quindi è sbagliato), che può essere utilizzata per mappare nuovi esempi.
I primi sistemi di filtraggio che utilizzavano l'apprendimento supervisionato erano basati su set di dati relativamente piccoli, ma i set di dati sono cresciuti in dimensioni e sofisticazione con l'avvento dei Big Data. Ad esempio, Gmail offre un database su scala Internet di indirizzi validi noti ed è più facile addestrare il suo motore ML con modelli sofisticati di ciò che è accettabile.
I grandi modelli (in termini di una serie di parametri) basati sui Big Data, come i modelli di deep learning, sono diventati gradualmente più popolari. Ad esempio, il ML supervisionato è stato utilizzato con successo per anni nella generazione di firme antivirus e nel 2012 Cylance ha iniziato a offrire sistemi antivirus di nuova generazione basati su set di dati diversi dalle firme, come il comportamento anomalo del traffico.
Combinazione di apprendimento supervisionato e non supervisionato
L'apprendimento supervisionato ha mostrato più successo nelle applicazioni di sicurezza, ma richiede un facile accesso a grandi set di dati etichettati, che sono molto difficili da generare per attacchi informatici come APT (minacce persistenti avanzate) e attacchi zero-day mirati alle imprese. Pertanto, non possiamo applicare facilmente il ML supervisionato per risolvere tutti gli attacchi informatici.
È qui che l'apprendimento senza supervisione torna nella situazione. Dobbiamo sviluppare AI / ML più avanzati che possono essere non supervisionati o semi-supervisionati (ad esempio, attraverso l'apprendimento adattivo) per risolvere le ulteriori sfide della sicurezza informatica. L'apprendimento adattivo (analisi guidata dall'uomo) abbinato all'apprendimento supervisionato e non supervisionato migliora la tua capacità di rilevare quegli APT e gli exploit zero-day.
Una nuova direzione: collegare i punti
Uno dei grandi problemi con il semplice rilevamento delle anomalie è il volume di falsi positivi. Un modo per affrontare questo problema è correlare più eventi (punti) e quindi valutare se la correlazione indica o meno un segnale forte per un attacco informatico. Ad esempio, un "punto" potrebbe essere un dirigente che accede alla rete alle 2 del mattino e, sebbene questo da solo possa essere visto come un falso positivo, non sarebbe sufficiente per attivare un avviso. Tuttavia, se il dirigente viene visto accedere alle 2 del mattino da un indirizzo IP in Russia o in Cina, si attiverà un avviso.
Sviluppatori e ricercatori stanno combinando l'apprendimento supervisionato e non supervisionato in prodotti di sicurezza informatica. Ad esempio, il prodotto Starlight di Stellar Cyber correla più eventi e valuta se, se guardati insieme, costituiscono una minaccia. Questo approccio riduce in modo significativo i falsi positivi e aiuta gli analisti a identificare gli APT o gli attacchi zero-day più rapidamente.
La prossima frontiera sarà rendere l'autoapprendimento del ML, in modo che le esperienze passate nel rilevamento e nella risposta alle minacce vengano prese in considerazione in nuove valutazioni delle potenziali minacce. Il sistema diventerebbe così più accurato nel tempo. Alcuni sistemi di sicurezza stanno iniziando a implementare la tecnologia di autoapprendimento oggi, ma la storia del ML nella sicurezza informatica è relativamente breve e in futuro emergeranno miglioramenti su larga scala. Mentre gli analisti della sicurezza saranno sempre necessari per prendere la decisione finale sull'opportunità di uccidere una minaccia, il ML può rendere il loro lavoro molto più semplice se applicato correttamente.
Riferimenti:
[1] DE Denning, "An Intrusion-Detection Model", IEEE Transactions on Software Engineering, vol. 13, n. 2, pagg. 222-232, 1987.
[2] R. Lippmann, RK Cunningham, DJ Fried, I. Graf, KR Kendall, SE Webster e MA Zissman, "Results of the 1998 DARPA Off-line Intrusion Detection Evaluation," in Proc. Recenti progressi nel rilevamento delle intrusioni, 1999.


