Датасеты по ИБ для машинного обучения

На чтение 3 мин Просмотров 462 Опубликовано 26/02/2019

В презентации по машинному обучению в ИБ я приводил слайд с примерами датасетов, которые можно использовать в своих проектах по машинному обучению. У меня несколько человек попросили ссылок на них, что я и делаю.

Набор PCAP-файлов с записанным сетевым трафиком от Netresec
KDD Cup 1999. Это классический набор для проведения тестов IDS (уже размеченный). Да, ему уже 20 лет. Да, его часто используют разработчики вновь создаваемых систем обнаружения атак. И да, часто не достигается значения 100%, что крайне удивительно.
5 датасетов от Stratosphere Lab — для вредоносного ПО, включая самые последние семплы, для нормального трафика, для смешанного трафика (зараженного и вычищенного), для Интернета вещей, а также специальный датасет, основанные на данных из реальной инфраструктуры.
Еще один датасет NSL KDD для систем обнаружения атак.
Датасеты от Лаборатории Линкольна MIT, также предназначенный для систем обнаружения атак. Датасеты подготовлены DARPA и описывают несколько сценариев атак. На сайте Лаборатории Линкольна есть несколько версий датасетов — от 1998-го, 99-го и 2000-го годов.
Лаборатория Лос-Аламоса (занимается ядерным оружием США) также имеет ряд датасетов, гораздо свежее, чем у Лаборатории Линкольна. Один содержит девятимесячные данные по почти 3/4 миллиардам аутентификационных событий. Второй описывает двухмесячные данные (DNS, аутентификация, Netflow и т.п.) из внутренней сети Лос-Аламоса. Третий датасет описывает три месяца работы корпоративной сети Лос-Аламоса с точки зрения хостовых событий и Netflow.
Датасет АНБ. Да-да, того самого агентства национальной безопасности. Тут и логи Snort, и DNS, и логи Web-серверов.
Четырехмесячный датасет с 2,5 миллионами вредоносных URL. А тут еще один.
Датасет ADFA (австралийская академия сил обороны) для проверки хостовых систем обнаружения атак, работающих под Linux и Windows.
Коллекция Web-атак.
Тройка датасетов с примерами вредоносного кода — тут, тут и тут (этот с малварью для Андроида).
Датасеты для спама и фишинга.
Ember — датасет из 1.1 миллиона вредоносных семплов (PE-файлов), которые «прошли» через VirusTotal в 2017-м году.
Датасет с DGA-доменами.
Датасет по даркнету в периоде с 2013 по 2015 годы.
Топ 1000000 популярных доменов по версии Alexa и Cisco Umbrella.

Вопреки расхожему мнению, что в Интернет мало датасетов для обучения собственных моделей машинного обучения, это не совсем так. Примеры выше показывают, что их немало (и это только часть того, что выложено в открытый доступ). Но есть и проблемы, которые были отмечены в заголовке слайда выше — все датасеты имеют разные форматы, разные способы разметки, неполны и не всегда актуальны (угрозы-то меняются постоянно). В обозримом будущем датасеты останутся конкурентным преимуществом компаний, активно работающих в сфере применения машинного обучения в области кибербезопасности. Хотя, со временем, на рынке появятся, а возможно и будут сдаваться в аренду или продаваться, хорошие датасеты под разные задачи ИБ. Но до этого нам (особенно в России) еще далеко.

Есть что добавить? Добавьте!

Имя *

Email *

Комментарий

Нажимая кнопку "Отправить", я даю свое согласие на обработку персональных данных (если вдруг они указаны в комментарии) в соответствие с политикой конфиденциальности. Также я соглашаюсь с тем, что в своем комментарии не раскрываю никаких сведений, составляющих государственную тайну, а также никакой иной информации, охраняемой законом (для этого используйте иные способы :-) ), если это не разрешено ее владельцем. Ваш комментарий может появиться не сразу, а после модерации (так бывает не всегда, но бывает).

Anton Shipulin 26/02/2019 в 21:58

В тему ли https://itrust.sutd.edu.sg/research/dataset/

Ответить