分布式安全情报

分布式安全情报

 人工智能正在彻底改变网络安全行业。 为了成功地将AI用于安全性,数据质量至关重要。 必须从许多不同的来源收集与安全相关的数据-来自数据包的网络数据,来自命令和进程的服务器数据,诸如日志的应用程序数据以及来自安全研究人员的威胁情报数据等等。 这些不同的信息流被馈送到中央处理器中,在该处理器中进行机器学习以检测安全威胁。

 

数据挑战

在流程的数据收集部分中会遇到一些挑战。

  • 资料不足

在某些情况下,数据量不足以使机器学习生成准确的输出。 发生这种情况时,可能会有太多的误报或误报。 通常,数据量越大,结果越准确。

  • 资料过多

但是,拥有大量数据的缺点是所需计算能力的成本不断增加。 可能有太多的数据,机器学习消耗了太多的资源并且无法持续。 在这些情况下,内联部署机器学习模型变得不切实际或成本过高。

  • 缺失数据

数据可能丢失或不完整。 如果缺少一些难题,则无法检测到某些安全事件。 我们将在后面的部分中详细说明这意味着什么。

  • 资料不正确

如果数据不正确,那么即使是理论上完美的机器学习模型也会产生错误的结果。 垃圾进垃圾出。

由于第二个和第三个挑战不太直观,因此我们将集中精力解决这两个挑战。

我们将讨论为什么安全情报的体系结构在确定其部署的可伸缩性和可靠性时起着至关重要的作用。

 

集中式与分布式安全情报

为了设计用于网络安全的机器学习,可以考虑两种架构。 集中式架构非常普遍。 在集中式机器学习中,当机器学习在集中的地方运行时,数据源来自许多来源。 数据馈送(它们是日志或网络流量,例如Netflow或IPFIx)本身并不包含任何情报-它们只是将车辆运送到中央大数据平台。 然后由中央平台对汇总数据进行机器学习。

借助分布式安全智能(DSI)架构,安全智能可以在流程的最开始就从数据源开始,巧妙地应用于整个系统的关键时刻。 尽管DSI体系结构类似地将这些分散的数据源馈送到一个集中的大数据平台中进行分析,但是在其他点上应用智能技术可以减少大数据平台吸收的数据量。 像FOG计算一样,这种区别使可扩展性和可负担性成为大中型企业和具有多个SME客户的MSSP所追求的。

使用案例

 在以下情况下,DSI展示了其作为安全智能体系结构的优越性:

 

问题案例1:原始数据包数据不可扩展

正如IDS / IPS先前所证明的那样,使用原始数据包进行检测对可伸缩性有严格的限制。 为了缓解此问题,大多数IDS / IPS部署在外围防火墙附近(如果不是外围防火墙的一部分)。 想象一下,在数据中心或云中的某些集中式服务器上尝试进行这种操作–数据包被复制并通过网络流到服务器集群。 尽管有可能尝试,但这将对源服务器的CPU,网络带宽以及集中式服务器的计算资源造成沉重负担。 在原始数据包上运行机器学习是完全不切实际的。 此外,每个安全性相关的信息密度都非常低,并且对数据包进行格式化以实现高效传输,而不是像机器学习那样进行分析。

 

问题案例2:Netflow / IPFIX丢失关键数据 

鉴于原始数据包缺乏可伸缩性,压缩数据并仅提取有用信息似乎是明智的。 Netflow和IPFIX是跟踪网络流量信息而不是单个数据包的协议。 它们极大地减少了数据量,使机器学习变得可行。 但是,尽管Netflow / IPFIX对网络性能分析很有用,但是对应用程序内容的了解却很少。 安全威胁检测需要诸如DNS域名,HTTP URL,数据库查询之类的信息。

已经尝试增强IPFIX功能以支持诸如应用程序名称之类的内容,但是由于不同应用程序的丰富性以及每个应用程序的复杂性,导致结果不足。

 

解决方案:具有应用程序内容的卓越数据

分布式智能代表了一种更好的方法。 通过从原始数据包中正确识别应用程序,应从诸如DNS域名和MySQL查询之类的流行应用程序中提取与安全相关的信息。 可以在收集时利用诸如会话开始,会话持续时间,会话各个方向上的总字节数以及数据包传输模式之类的流信息来丰富提取的数据。 与仅使用原始数据包相比,此分布式模型具有数据减少的优点,同时还克服了标准协议(例如Netflow / IPFIX)的限制。 有助于威胁检测的有用信息的密度增加了,而数据量却减少了。

考虑到应用程序的潜在多样性和复杂性以及每个应用程序的潜在复杂性,应用程序标识非常耗时。 诸如BRO之类的开源工具可以提取应用程序内容,但是性能仍然是一个挑战。 为了达到一定的吞吐量,似乎有必要使用昂贵的专用硬件。 Stellar Cyber​​的数据筛选器是一种功能强大,轻巧的解决方案,具有内置的智能功能,仅通过流的第一个数据包即可识别数千个应用程序。 它的智能性降低了所需的计算能力,并提供了对检测安全事件至关重要的附加信息。

 

问题案例3:仅网络流量会丢失关键数据

在网络流量数据上运行机器学习当然可以检测到某些安全事件,但是结果可能无法迅速采取行动。 例如,可能有可能通过其IP地址来识别受感染的服务器或容器。 但是,一种改进是使用服务器的主机名来丰富服务器的IP信息,因为IP地址可以随时间变化。 进一步的改进将是在生成事件的服务器上查明命令,进程或用户,以便可以停止恶意进程并清除受到感染的用户。 为了实现这些目标,必须从其他数据源(例如应用程序日志,执行的命令和服务器进程)进行智能数据采集和融合。

 

解决方案:来自更多来源的卓越数据

可以并且应该从多个来源获取数据。 Stellar Cyber​​的数据筛选器利用分布式智能来支持各种数据源,从带有应用程序内容的网络流量到服务器上运行的命令或进程,再到应用程序日志等。 我们的中央处理器可以从其他来源(如防火墙和IDS / IPS日志,威胁情报源以及来自AD的用户信息)中提取数据。 然后将这些丰富的数据集进行汇总和关联,以进行高级分析。

 

问题案例4:太多数据无法集中处理

 智能中央处理器可以检测端口扫描,SYN泛洪和通过DNS隧道进行数据泄漏等常见威胁。 但是,一种更有效,更经济的策略是在初始数据收集阶段对其进行检测。 在系统的本地分支机构中应用智能功能可减少中央处理器必须提取,处理和存储的数据量。 如果将包含相关威胁的整个网络流量数据集提供给处理器,则机器学习模块将不必要地对成千上万个额外的记录进行分析。 为了节省资源,数据收集代理应在继续之前将数据提取为重要的项目。 除了提高性能外,中央处理器还将受益于降低接收DOS攻击的风险。

 

分布式智能,提供更智能,更快的安全性

分布式智能在扩展机器学习和增强安全性检测方面的优势不仅限于这些情况。 例如,智能数据收集器可以在检测到时捕获DNS隧道事件的数据包,以便可以恢复隧道信息。

在整个数据处理链中分布安全情报可以增强整个威胁检测系统的可伸缩性。 数据收集点的智能功能可以提高数据质量,同时减少数据量。 然后,集中式数据处理器的基于微服务的体系结构使有监督和无监督的机器学习都可以在管道中使用,以进行及时,可靠的威胁检测。

刘昌明

CEO

恒星网络

 

 

 

 

 

滚动到顶部