anomaly-detection
Data Science
Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded
Data Science
Вопрос или проблема У меня есть набор данных, в котором я должен обнаружить аномалии. Сейчас я использую подмножество данных (назовем это подмножество A) и применяю алгоритм DBSCAN для обнаружения аномалий в наборе A. Как только аномалии обнаружены, используя
Data Science
Вопрос или проблема У меня есть временные ряды данных, содержащие действия пользователей в определенные интервалы времени, например, Дата UserId Директория операция Результат 01/01/2017 99:00 user1 dir1 created_file success 01/01/2017 99:00 user3 dir10
Data Science
Вопрос или проблема Я выполняю обнаружение аномалий на различных наборах данных и подумал сначала кластеризовать набор данных и отправить каждый кластер в разные модели обнаружения аномалий. Я использую HDBSCAN, и в моем тестовом наборе данных я получаю
Data Science
Вопрос или проблема Ниже приведен мой код, который берет диапазон чисел и создает новый столбец label, содержащий либо -1, либо 1. Если число больше 14000, мы маркируем его как -1 (выброс). Если число меньше 14000, мы маркируем его как 1 (нормальное значение).
Data Science
Вопрос или проблема Надеюсь, кто-нибудь сможет помочь мне с рабочей проблемой, с которой я сталкиваюсь. У меня есть данные, включающие machineID, временные метки (UTC) и потенциал батареи для нескольких машин в течение 14 дней каждые 2 минуты.
Data Science
Вопрос или проблема У меня есть процесс, который (проще говоря), запускается каждые 5 минут, собирает данные и записывает эти данные в базу данных. Более подробное объяснение: процесс запускается, собирает данные (что занимает некоторое время) и размещает
Data Science
Вопрос или проблема Я запутался, как подойти к этой проблеме. Я пытаюсь реализовать модель без учителя, используя набор данных, который по сути является файлом журнала. Этот набор данных содержит различные характеристики, но самое важное, у него есть
Data Science
Вопрос или проблема У меня есть большой набор данных с переменной y, которая отчасти зависит от переменных x1 и x2. Все переменные шумные, и y также зависит от других параметров, не зафиксированных в наборе данных. Я хотел бы обнаружить, когда y принимает
Data Science
Вопрос или проблема Недавно я занимаюсь обнаружением аномалий, одним из методов является использование модели АЕ для изучения паттерна нормальных образцов. Определите его как аномальный образец, если он не соответствует паттерну нормальных образцов.
Data Science
Вопрос или проблема Этот временной ряд содержит некоторые временные рамки, каждая из которых составляет 8K (частоты)*151 (временные выборки) за 0.5 секунды [всего 1.2288 миллиона выборок за полсекунды] Мне нужно найти аномальные значения на основе различных строк (частот).
Data Science
Вопрос или проблема Я работаю над обнаружением аномалий в данных временных рядов и мне нужно добавить синтетические аномалии в существующие данные временных рядов (чтобы протестировать алгоритмы обнаружения аномалий). Я могу сделать это, запустив функцию
Data Science
Вопрос или проблема Я немного запутался, как эффективно смоделировать обнаружение аномалий для следующей проблемы, вероятно, из-за отсутствия опыта в моделировании временных рядов: Я получаю рыночные данные, отсортированные по временной метке, содержащие
Data Science
Вопрос или проблема В настоящее время я исследую методы обнаружения аномалий для своей работы, и, в основном, я изучил метод локального фактора аномалий и изоляционные леса, оба метода являются неконтролируемыми. Дело в том, что может возникнуть ситуация
Data Science
Вопрос или проблема В общем, проблема заключается в следующем: существует целевая величина (эффективность мобильных станций). Цель состоит в том, чтобы найти станции, которые работают неэффективно, и выявить причины этого. Кроме того, желаем найти средства
Data Science
Вопрос или проблема У меня есть остатки многомерных временных рядов, полученные с датчиков на сервере. Всплески на графиках остатка указывают на аномальное состояние сервера. Я хочу сгруппировать данные по вертикальным кластерам и получить индексы точек
Data Science
Вопрос или проблема Я пытаюсь использовать методы кластеризации и классификации, такие как SVM, с использованием scikit-learn. Я также изучаю детекцию выбросов/новизны. Мне нужна что-то вроде полуподконтрольной модели. Я хочу предсказать некоторые метки
Data Science
Вопрос или проблема У нас есть производственная база данных. Нагрузка на базу данных варьируется в разное время. Я хочу выявить аномалии; например, количество процессов базы данных, отвечающих на запросы пользователей в 9 утра, составляет 100 в определённый день.
Data Science
Вопрос или проблема Заголовок: Как справиться с прогнозами с двумя категориальными переменными высокой кардинальности? Текст: Здравствуйте, всем, Я работаю над проектом в области машинного обучения и был бы признателен за советы по выбору лучших методов обработки моих данных.
Data Science
Вопрос или проблема Я ищу набор данных с файловыми журналами, которые содержат помеченные проблемы в области кибербезопасности. Поскольку я пытаюсь создать модель анализа журналов кибербезопасности, предпочтений по типу журналов нет, но предпочтительным