Набор данных анализа логов с помеченными проблемами кибербезопасности

Вопрос или проблема

Я ищу набор данных с файловыми журналами, которые содержат помеченные проблемы в области кибербезопасности. Поскольку я пытаюсь создать модель анализа журналов кибербезопасности, предпочтений по типу журналов нет, но предпочтительным является наличие известных проблем в области кибербезопасности в данных.

В настоящее время все, что я смог найти, это наборы данных журналов (HDFS, BGL), которые содержали аномалии, не являющиеся проблемами кибербезопасности, а скорее ошибками выполнения. Я также нашел множество сетевых данных, таких как на https://vizsec.org/data/, но они содержат сетевой трафик вместо журналов. Кроме того, я нашел наборы данных журналов, которые действительно содержали проблемы кибербезопасности, но их количество было слишком мало для обучения модели.

Также было бы полезно узнать, как можно генерировать такие наборы данных в больших количествах.

В отношении ваших малодоступных данных, либо увеличьте их объем, либо примените кросс-валидацию.

Или
Ищите ожидаемые данные на https://datasetsearch.research.google.com/

Посмотрите, может быть, это поможет – Общедоступные наборы данных

Также вы можете использовать технику SMOTE, если у вас недостаточно данных.

Ответ или решение

Поиск датасетов с журналами и обозначенными киберугрозами

Если вы ищете датасеты с логами, содержащими отмеченные киберугрозы, то столкнетесь с рядом сложностей, так как большинство доступных данных в этой области может быть недостаточным для обучения сложных моделей. Однако есть источники и методы, которые помогут вам в вашей задаче.

1. Нахождение необходимых датасетов

К сожалению, как вы уже отметили, многие доступные лог-файлы содержат аномалии, не относящиеся к киберугрозам. Важно сосредоточиться на ресурсах, которые специально нацелены на кибербезопасность. Вот несколько вариантов:

  • Кибербезопасностные платформы и архивы: Вебсайты, такие как CICIDS, содержат наборы данных о сетевом трафике с отмеченными кибератаками. Хотя это может не быть непосредственно журнальными данными, относящимися к вашим нуждам, вы сможете извлечь полезные характеристики для вашей модели.

  • Киберугрозы с пометками: Проекты на GitHub и подобные репозитории могут содержать логи с пометками. Поиск по тегам, связанным с кибербезопасностью, такими как security logs, может дать результаты в отношении публичных наборов данных.

  • Google Dataset Search: С помощью Google Dataset Search вы можете найти специализированные наборы данных, которые могут соответствовать вашим критериям. Вводите поисковые термины, такие как “labeled cybersecurity logs” или “cybersecurity incident logs”.

2. Генерация собственных датасетов

Если найти неподходящие лог-файлы не удалось, можно рассмотреть вероятность создания собственных датасетов. Вот несколько способов, как это можно сделать:

  • Симуляция атак: Используйте утилиты, такие как Metasploit или другие фреймворки для выполнения пентестов, чтобы сгенерировать логи, включающие различные виды кибератак, включая DDoS, SQL-инъекции и обход аутентификации.

  • Программное обеспечение для тестирования на проникновение: Используйте сепараторные окружения (например, виртуальные машины), чтобы имитировать атаки и создавать логи с отмеченными инцидентами.

  • Аугментация данных: Если у вас есть небольшой набор данных, используйте методы аугментации данных, такие как SMOTE, для увеличения размера обучающего набора с помощью синтетических примеров.

3. Применение методов обработки данных

При недостаточном объеме данных можно применять подходы к обработке, такие как:

  • Кросс-валидация: Это позволит вам более эффективно использовать имеющиеся данные, разбивая их на несколько частей для проверки общей производительности модели.

  • Увеличение данных: Это также поможет создать дополнительные входные данные, которые могут улучшить качество ваших моделей.

Заключение

Нахождение подходящей базы данных с журналами и пометками киберугроз может быть сложной задачей, требующей креативного подхода и использования нескольких источников. Используйте комбинацию существующих ресурсов и методов генерации данных, чтобы создать надежную тренировочную модель для анализа логов. Если вы сталкиваетесь с недостатком данных, применение методов аугментации и кросс-валидации поможет вам извлечь наилучшие результаты из того, что у вас уже есть.

Оцените материал
Добавить комментарий

Капча загружается...