Tình báo bảo mật phân tán
Trí tuệ nhân tạo đang làm thay đổi hoàn toàn ngành công nghiệp an ninh mạng. Để sử dụng thành công AI để bảo mật, chất lượng của dữ liệu là điều tối quan trọng. Dữ liệu liên quan đến bảo mật phải được thu thập từ nhiều nguồn khác nhau - dữ liệu mạng từ các gói tin, dữ liệu máy chủ từ các lệnh và quy trình, dữ liệu ứng dụng như nhật ký và dữ liệu tình báo về mối đe dọa từ các nhà nghiên cứu bảo mật, trong số những người khác. Các luồng thông tin khác nhau này được đưa vào một bộ xử lý tập trung, trong đó học máy được thực hiện để phát hiện các mối đe dọa bảo mật.
Những thách thức về dữ liệu
Một số thách thức xuất hiện trong phần thu thập dữ liệu của quy trình.
- Không đủ dữ liệu
Trong một số trường hợp, lượng dữ liệu không đủ để máy học tạo ra kết quả chính xác. Khi điều này xảy ra, có thể có quá nhiều dương tính giả hoặc âm tính giả. Nói chung, khối lượng dữ liệu càng lớn thì kết quả càng chính xác.
- Quá nhiều dữ liệu
Tuy nhiên, nhược điểm của việc có một khối lượng lớn dữ liệu là chi phí ngày càng tăng của sức mạnh tính toán cần thiết. Có thể có quá nhiều dữ liệu khiến máy học tiêu tốn quá nhiều tài nguyên và không thể duy trì. Trong những trường hợp này, việc triển khai nội tuyến các mô hình học máy trở nên không thực tế hoặc tốn kém.
- Dữ liệu bị mất
Dữ liệu có thể bị thiếu hoặc không đầy đủ. Nếu các mảnh ghép bị thiếu, các sự kiện bảo mật nhất định sẽ không thể được phát hiện. Chúng tôi sẽ giải thích chi tiết điều này có nghĩa là gì trong phần sau.
- Dữ liệu không chính xác
Nếu dữ liệu không chính xác, ngay cả một mô hình học máy hoàn hảo về mặt lý thuyết cũng sẽ tạo ra kết quả sai. Rác vào, Rác ra.
Vì thách thức thứ hai và thứ ba ít trực quan hơn, chúng tôi sẽ tập trung giải quyết hai thách thức này.
Chúng ta sẽ thảo luận về lý do tại sao kiến trúc của tình báo bảo mật lại quan trọng trong việc xác định khả năng mở rộng và độ tin cậy của nó khi triển khai.
Trí tuệ bảo mật tập trung so với phân tán
Để thiết kế học máy cho an ninh mạng, có thể xem xét hai kiến trúc. Kiến trúc tập trung khá phổ biến. Trong học máy tập trung, nguồn cấp dữ liệu từ nhiều nguồn trong khi học máy đang chạy ở một nơi tập trung. Các nguồn cấp dữ liệu, là nhật ký hoặc lưu lượng mạng như Netflow hoặc IPFIx, tự chứa rất ít thông tin thông minh - chúng chỉ đơn thuần là phương tiện vận chuyển đến nền tảng dữ liệu lớn trung tâm. Sau đó, việc học máy được thực hiện bởi nền tảng trung tâm trên dữ liệu tổng hợp.
Với kiến trúc Thông minh bảo mật phân tán (DSI), trí thông minh bảo mật được áp dụng một cách khéo léo tại các điểm mấu chốt quan trọng trong toàn bộ hệ thống, bắt đầu từ các nguồn dữ liệu ngay từ đầu quá trình. Mặc dù kiến trúc DSI tương tự cung cấp các nguồn dữ liệu khác nhau này vào một nền tảng dữ liệu lớn tập trung để phân tích, việc áp dụng trí thông minh tại các điểm bổ sung làm giảm lượng dữ liệu được nền tảng dữ liệu lớn nhập vào. Giống như điện toán FOG, sự khác biệt này cho phép khả năng mở rộng và khả năng chi trả được các doanh nghiệp vừa đến lớn và MSSP có nhiều khách hàng SME tìm kiếm.
Trường hợp sử dụng
DSI minh họa tính ưu việt của nó như là một kiến trúc cho tình báo bảo mật trong các trường hợp sau:
Sự cố Trường hợp 1: Dữ liệu gói thô không thể mở rộng
Như đã được IDS / IPS chứng minh trước đây, việc sử dụng các gói thô để phát hiện có những hạn chế nghiêm trọng về khả năng mở rộng. Để giảm thiểu vấn đề này, hầu hết IDS / IPS được triển khai gần, nếu không phải là một phần của tường lửa chu vi. Hãy tưởng tượng thử điều này trên một số máy chủ tập trung trong trung tâm dữ liệu hoặc đám mây - các gói tin được nhân bản và truyền trực tuyến trên mạng tới cụm máy chủ. Mặc dù có thể cố gắng nhưng nó sẽ dẫn đến gánh nặng cho CPU của máy chủ nguồn, băng thông mạng, cũng như tài nguyên máy tính của các máy chủ tập trung. Chạy máy học trên các gói thô chỉ đơn giản là không thực tế. Hơn nữa, mật độ thông tin liên quan đến bảo mật của mỗi gói là rất thấp và các gói được định dạng để truyền tải hiệu quả, không phải để phân tích như học máy.
Sự cố Trường hợp 2: Netflow / IPFIX bỏ lỡ dữ liệu quan trọng
Việc nén dữ liệu và chỉ trích xuất thông tin hữu ích có vẻ thận trọng khi thiếu khả năng mở rộng của các gói dữ liệu thô. Netflow và IPFIX là các giao thức theo dõi thông tin luồng lưu lượng mạng thay vì các gói riêng lẻ. Chúng làm giảm đáng kể khối lượng dữ liệu, làm cho việc học máy trở nên khả thi. Tuy nhiên, mặc dù Netflow / IPFIX hữu ích cho việc phân tích hiệu suất mạng, nhưng không thể đạt được nhiều thông tin chi tiết về nội dung ứng dụng. Phát hiện mối đe dọa bảo mật yêu cầu thông tin như tên miền DNS, URL HTTP, truy vấn cơ sở dữ liệu, trong số những thông tin khác.
Các nỗ lực đã được thực hiện để tăng cường chức năng IPFIX để hỗ trợ nội dung như tên ứng dụng, nhưng kết quả không đạt được do sự phong phú của các ứng dụng khác nhau cũng như sự phức tạp của từng ứng dụng.
Giải pháp: Dữ liệu cao cấp với Nội dung ứng dụng
Trí thông minh phân tán đại diện cho một cách tốt hơn. Thông tin liên quan đến bảo mật nên được trích xuất từ các ứng dụng phổ biến, chẳng hạn như tên miền DNS và truy vấn MySQL, bằng cách xác định đúng các ứng dụng từ các gói thô. Dữ liệu được trích xuất có thể được làm giàu tại thời điểm thu thập với thông tin về luồng như bắt đầu phiên, thời lượng phiên, tổng số byte trong mỗi hướng của phiên và kiểu truyền gói, chỉ cần nêu tên một vài. Mô hình phân tán này tự hào về việc giảm dữ liệu so với chỉ sử dụng các gói thô, đồng thời khắc phục các hạn chế từ các giao thức tiêu chuẩn như Netflow / IPFIX. Mật độ thông tin hữu ích để hỗ trợ phát hiện mối đe dọa được tăng lên, trong khi khối lượng dữ liệu giảm.
Xem xét tính đa dạng và phức tạp tiềm ẩn của các ứng dụng và độ phức tạp tiềm ẩn của mỗi ứng dụng, việc xác định ứng dụng có thể rất tốn thời gian. Các công cụ mã nguồn mở như BRO có thể trích xuất nội dung ứng dụng, nhưng hiệu suất tiếp tục là một thách thức. Để đạt được một thông lượng nhất định, có vẻ như cần phải có phần cứng chuyên dụng đắt tiền. Bộ lọc dữ liệu của Stellar Cyber là một giải pháp mạnh mẽ, nhẹ với trí thông minh tích hợp có thể xác định hàng nghìn ứng dụng chỉ với gói dữ liệu đầu tiên của quy trình. Sự thông minh của nó làm giảm sức mạnh tính toán cần thiết và cung cấp thông tin bổ sung sẽ chứng tỏ quan trọng trong việc phát hiện các sự kiện bảo mật.
Sự cố Trường hợp 3: Chỉ riêng Lưu lượng mạng bỏ sót dữ liệu quan trọng
Chạy máy học trên dữ liệu lưu lượng mạng chắc chắn có thể phát hiện một số sự kiện bảo mật, nhưng kết quả có thể không nhanh chóng thực hiện được. Ví dụ: có thể xác định máy chủ hoặc vùng chứa bị xâm nhập bằng địa chỉ IP của nó. Tuy nhiên, một cải tiến sẽ là làm phong phú thêm thông tin IP của máy chủ với tên máy chủ của nó, vì địa chỉ IP có thể thay đổi theo thời gian. Một cải tiến hơn nữa sẽ là xác định chính xác lệnh, quy trình hoặc người dùng trên máy chủ đã tạo ra sự kiện, để có thể dừng các quy trình độc hại và xóa người dùng bị xâm phạm. Để đạt được các mục tiêu này, việc thu thập và tổng hợp dữ liệu thông minh phải được tiến hành từ các nguồn dữ liệu khác, chẳng hạn như nhật ký ứng dụng, lệnh được thực thi và quy trình máy chủ.
Giải pháp: Dữ liệu cao cấp từ nhiều nguồn hơn
Dữ liệu từ nhiều nguồn có thể và cần được thu thập. Bộ lọc dữ liệu của Stellar Cyber sử dụng trí thông minh phân tán để hỗ trợ nhiều nguồn dữ liệu khác nhau, từ lưu lượng mạng với nội dung ứng dụng, đến các lệnh hoặc quy trình chạy trên máy chủ, đến nhật ký ứng dụng, v.v. Bộ xử lý tập trung của chúng tôi có thể nhập dữ liệu từ các nguồn bổ sung như tường lửa và nhật ký IDS / IPS, nguồn cấp dữ liệu thông minh về mối đe dọa và thông tin người dùng từ AD. Các tập dữ liệu phong phú này sau đó được tổng hợp và tương quan để chuẩn bị cho phân tích nâng cao.
Sự cố Trường hợp 4: Quá nhiều dữ liệu để xử lý tập trung
Các mối đe dọa phổ biến như quét cổng, lũ SYN và xâm nhập dữ liệu qua đường hầm DNS, có thể được phát hiện bởi bộ xử lý trung tâm thông minh. Tuy nhiên, một chiến lược hiệu quả và kinh tế hơn là phát hiện chúng ở giai đoạn thu thập dữ liệu ban đầu. Việc áp dụng trí thông minh tại các nhánh cục bộ của hệ thống làm giảm khối lượng dữ liệu mà bộ xử lý trung tâm phải nhập, xử lý và lưu trữ. Nếu toàn bộ tập hợp dữ liệu lưu lượng mạng có chứa các mối đe dọa liên quan được cung cấp cho bộ xử lý, mô-đun học máy sẽ chạy phân tích trên hàng chục nghìn hoặc hàng triệu bản ghi bổ sung một cách không cần thiết. Để bảo tồn tài nguyên, nhân viên thu thập dữ liệu nên chắt lọc dữ liệu thành các mục quan trọng trước khi tiếp tục. Ngoài việc cải thiện hiệu suất, bộ xử lý trung tâm cũng sẽ được hưởng lợi từ việc giảm nguy cơ nhận các cuộc tấn công DOS.
Thông minh hơn, Bảo mật nhanh hơn với Trí thông minh Phân tán
Lợi thế của trí thông minh phân tán trong việc mở rộng quy mô học máy và tăng cường khả năng phát hiện bảo mật vượt ra ngoài những trường hợp này. Ví dụ, một bộ thu thập dữ liệu thông minh có thể nắm bắt các gói tin của sự kiện đường hầm DNS tại thời điểm phát hiện để có thể khôi phục thông tin đường hầm.
Phân phối thông tin tình báo bảo mật trong toàn bộ chuỗi xử lý dữ liệu giúp tăng cường khả năng mở rộng của toàn bộ hệ thống phát hiện mối đe dọa. Thông minh tại các điểm thu thập dữ liệu, cải thiện chất lượng dữ liệu đồng thời giảm khối lượng. Sau đó, kiến trúc dựa trên dịch vụ vi mô của bộ xử lý dữ liệu tập trung cho phép sử dụng cả học máy có giám sát và không giám sát trong đường ống để phát hiện mối đe dọa kịp thời và tự tin.
Changming Liu
CEO
sao điện tử


