Suche
Schließen Sie dieses Suchfeld.

Eine kurze Geschichte des maschinellen Lernens in der Cybersicherheit

So verbinden Sie alle Punkte in einer komplexen Bedrohungslandschaft

Ursprünglich veröffentlicht Sicherheitsinfowatch
AUTOREN DAVID BARTONDR. ALBERT ZHICHUN LI

Analyse des Netzwerkverkehrs
Entwickler zeigen zunehmendes Interesse daran, maschinelles Lernen (ML) zur Automatisierung der Bedrohungssuche zu nutzen

(BILD MIT FREUNDLICHER GENEHMIGUNG VON BIGSTOCK.COM)

Mit zunehmender Anzahl von Cyberangriffen sind Sicherheitsanalysten überfordert. Um dieses Problem zu beheben, zeigen Entwickler mehr Interesse an der Verwendung von maschinellem Lernen (ML) zur Automatisierung der Bedrohungssuche. Tatsächlich haben Forscher seit Ende der 1980er Jahre versucht, ML in Cybersicherheitslösungen zu implementieren, aber die Fortschritte waren langsam. Heute ist ML mit dem Aufkommen von Big Data immer vielversprechender, da sich die Qualität der Informationen, aus denen ML lernen kann, verbessert. Es gibt jedoch noch viel mehr zu tun.

Anomalieerkennung - Die frühen Tage

Wenn wir über Sicherheit sprechen, wollen wir ein System, das gut von schlecht, normal von abnormal trennen kann. Daher ist es ganz natürlich, die Erkennung von Anomalien auf die Sicherheit anzuwenden. Wir können den Beginn der Anomalieerkennung bis 1987 zurückverfolgenals die Forscher mit dem Bau von Intrusion Detection-Systemen (IDS) begannen. Zwischen 1998 und 1999 erstellte DARPA (die Regierungsbehörde, die das Internet geschaffen hat) Benchmark-Sets und forderte die Erforschung von ML-Methoden in der Sicherheit2. Leider waren nur wenige Ergebnisse praktisch genug und noch weniger Produkte wurden in Betrieb genommen.

Die Erkennung von Anomalien basiert auf unbeaufsichtigtem Lernen. Hierbei handelt es sich um eine Art selbstorganisiertes Lernen, mit dessen Hilfe bisher unbekannte Muster in einem Datensatz ohne Verwendung bereits vorhandener Beschriftungen gefunden werden können. Im Wesentlichen weiß ein System, das auf unbeaufsichtigtem Lernen basiert, was normal ist, und identifiziert alles, was abnormal ist, als Anomalie. Ein IDS weiß beispielsweise möglicherweise, wie "normaler" Datenverkehr aussieht, und weist auf Verkehrsvarianten hin, die nicht mit diesem Wissen übereinstimmen, z. B. einen Schwachstellenscanner. Kurz gesagt, Anomalieerkennungssysteme, die auf unbeaufsichtigtem Lernen basieren, treffen eine binäre Entscheidung (normal / abnormal) und führen keine anspruchsvollen Bewertungen durch. Einige bezeichnen unbeaufsichtigte Lernanwendungen als "Probleme einer Klasse".

Wie Sie sich vorstellen können, können Systeme, die auf unbeaufsichtigtem Lernen basieren, viele Fehlalarme erzeugen, da eine als abnormal eingestufte Situation vollkommen harmlos sein kann (denken Sie erneut an den Schwachstellenscanner). Dies ist ein Problem, mit dem Sicherheitsanalysten noch heute zu kämpfen haben.

Der Aufstieg von Big Data

Nach dem Jahr 2000 begannen Entwickler und Forscher, Spam-, Phishing- und URL-Filtersysteme basierend auf überwachtem Lernen zu erstellen. Beim überwachten Lernen basieren Entscheidungen auf dem Vergleich eines Datensatzes (oder von Labels) mit einer wahrgenommenen Bedrohung. Ein solches Beispiel ist eine URL-Blacklist, bei der eingehende E-Mails mit einer Liste unerwünschter URLs abgeglichen und abgelehnt werden, wenn sie mit einer Bezeichnung in der Liste übereinstimmen. Ein überwachter Lernalgorithmus analysiert die Daten und erzeugt eine abgeleitete Funktion (dh dieses Verkehrsverhalten stimmt mit diesen Eingabedaten überein, daher ist es schlecht), die zum Abbilden neuer Beispiele verwendet werden kann.

Frühe Filtersysteme, die überwachtes Lernen verwenden, basierten auf relativ kleinen Datensätzen, aber Datensätze haben mit dem Aufkommen von Big Data an Größe und Komplexität zugenommen. Zum Beispiel bietet Google Mail eine Datenbank im Internet mit bekannten guten Adressen, und es ist einfacher, seine ML-Engine mit ausgefeilten Modellen zu trainieren, was akzeptabel ist.

Große Modelle (in Bezug auf eine Reihe von Parametern), die auf Big Data basieren, wie z. B. Deep-Learning-Modelle, sind nach und nach populärer geworden. Beispielsweise wird überwachtes ML seit Jahren erfolgreich bei der Generierung von Antivirensignaturen eingesetzt. Seit 2012 bietet Cylance Antivirensysteme der nächsten Generation an, die auf anderen Datensätzen als Signaturen basieren, z. B. anomales Verkehrsverhalten.

Überwachtes und unbeaufsichtigtes Lernen kombinieren

Überwachtes Lernen hat in Sicherheitsanwendungen mehr Erfolg gezeigt, erfordert jedoch einen einfachen Zugriff auf große Mengen gekennzeichneter Daten, die für Cyberangriffe wie APT (Advanced Persistent Threats) und Zero-Day-Angriffe auf Unternehmen nur sehr schwer zu generieren sind. Daher können wir beaufsichtigte ML nicht einfach anwenden, um alle Cyberangriffe zu lösen.

Hier kommt unbeaufsichtigtes Lernen wieder in die Situation. Wir müssen fortgeschrittenere KI / ML entwickeln, die unbeaufsichtigt oder halbüberwacht werden können (z. B. durch adaptives Lernen), um die zusätzlichen Herausforderungen im Bereich der Cybersicherheit zu lösen. Adaptives Lernen (von Menschen gesteuerte Analyse) in Verbindung mit überwachtem und unbeaufsichtigtem Lernen verbessert Ihre Fähigkeit, diese APTs und Zero-Day-Exploits zu erkennen.

Eine neue Richtung: Die Punkte verbinden

Eines der großen Probleme bei der einfachen Erkennung von Anomalien ist das Volumen der falsch positiven Ergebnisse. Eine Möglichkeit, dieses Problem zu beheben, besteht darin, mehrere Ereignisse (Punkte) zu korrelieren und dann zu bewerten, ob die Korrelation ein starkes Signal für einen Cyberangriff anzeigt oder nicht. Zum Beispiel könnte ein "Punkt" eine Führungskraft sein, die sich um 2 Uhr morgens im Netzwerk anmeldet, und obwohl dies allein als falsch positiv angesehen werden könnte, würde es nicht ausreichen, eine Warnung auszulösen. Wenn sich die Führungskraft jedoch um 2 Uhr morgens von einer IP-Adresse in Russland oder China aus anmeldet, wird eine Warnung ausgelöst.

Entwickler und Forscher kombinieren gerade überwachtes und unbeaufsichtigtes Lernen zu Cybersicherheitsprodukten. Zum Beispiel korreliert das Starlight-Produkt von Stellar Cyber ​​mehrere Ereignisse und bewertet, ob sie zusammen betrachtet eine Bedrohung darstellen. Dieser Ansatz reduziert Fehlalarme erheblich und hilft Analysten, APTs oder Zero-Day-Angriffe schneller zu identifizieren.

Die nächste Grenze wird darin bestehen, ML autodidaktisch zu machen, damit frühere Erfahrungen bei der Erkennung und Reaktion auf Bedrohungen in neue Bewertungen potenzieller Bedrohungen einfließen. Das System würde somit mit der Zeit genauer werden. Einige Sicherheitssysteme beginnen heute mit der Implementierung autodidaktischer Technologien, aber die Geschichte von ML in der Cybersicherheit ist relativ kurz, und in Zukunft werden sich umfangreiche Verbesserungen ergeben. Während Sicherheitsanalysten immer benötigt werden, um die endgültige Entscheidung darüber zu treffen, ob eine Bedrohung abgetötet werden soll, kann ML ihre Arbeit bei richtiger Anwendung erheblich erleichtern.

References:

[1] DE Denning, "Ein Intrusion-Detection-Modell", IEEE Transactions on Software Engineering, vol. 13, nein. 2, S. 222–232, 1987.

[2] R. Lippmann, RK Cunningham, DJ Fried, I. Graf, KR Kendall, SE Webster und MA Zissman, "Ergebnisse der DARPA-Offline-Intrusion-Detection-Bewertung von 1998" in Proc. Jüngste Fortschritte bei der Erkennung von Eindringlingen, 1999.

Nach oben scrollen