Data Science
Можно ли использовать метод главных компонент (PCA) для уменьшения размерности данных, закодированных методом One-Hot-Encoding?
00
Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded
Data Science
Безопасно ли использовать метки, созданные с помощью модели без учителя, для обучения модели с учителем, используя те же данные?
00
Вопрос или проблема У меня есть набор данных, в котором я должен обнаружить аномалии. Сейчас я использую подмножество данных (назовем это подмножество A) и применяю алгоритм DBSCAN для обнаружения аномалий в наборе A. Как только аномалии обнаружены, используя
Data Science
Предложение алгоритма для обнаружения аномалий в многомерных временных рядах.
00
Вопрос или проблема У меня есть временные ряды данных, содержащие действия пользователей в определенные интервалы времени, например, Дата UserId Директория операция Результат 01/01/2017 99:00 user1 dir1 created_file success 01/01/2017 99:00 user3 dir10
Data Science
Динамическая кластеризация
00
Вопрос или проблема Я выполняю обнаружение аномалий на различных наборах данных и подумал сначала кластеризовать набор данных и отправить каждый кластер в разные модели обнаружения аномалий. Я использую HDBSCAN, и в моем тестовом наборе данных я получаю
Data Science
Многие разделяющие линии с использованием RBF ядра в SVM.
00
Вопрос или проблема Ниже приведен мой код, который берет диапазон чисел и создает новый столбец label, содержащий либо -1, либо 1. Если число больше 14000, мы маркируем его как -1 (выброс). Если число меньше 14000, мы маркируем его как 1 (нормальное значение).
Data Science
Категоризация отключения батареи
00
Вопрос или проблема Надеюсь, кто-нибудь сможет помочь мне с рабочей проблемой, с которой я сталкиваюсь. У меня есть данные, включающие machineID, временные метки (UTC) и потенциал батареи для нескольких машин в течение 14 дней каждые 2 минуты.
Data Science
Как найти аномалии в (почти) постоянном потоке данных?
00
Вопрос или проблема У меня есть процесс, который (проще говоря), запускается каждые 5 минут, собирает данные и записывает эти данные в базу данных. Более подробное объяснение: процесс запускается, собирает данные (что занимает некоторое время) и размещает
Data Science
Ненаблюдаемое обнаружение аномалий – набор данных с несколькими пользователями
00
Вопрос или проблема Я запутался, как подойти к этой проблеме. Я пытаюсь реализовать модель без учителя, используя набор данных, который по сути является файлом журнала. Этот набор данных содержит различные характеристики, но самое важное, у него есть
Data Science
обнаружение аномалии в конкретной характеристике относительно других (без обучения?)
00
Вопрос или проблема У меня есть большой набор данных с переменной y, которая отчасти зависит от переменных x1 и x2. Все переменные шумные, и y также зависит от других параметров, не зафиксированных в наборе данных. Я хотел бы обнаружить, когда y принимает
Data Science
Какой тип обучения необходим для обнаружения аномалий? Обучение с учителем, полуобучение или обучение без учителя?
00
Вопрос или проблема Недавно я занимаюсь обнаружением аномалий, одним из методов является использование модели АЕ для изучения паттерна нормальных образцов. Определите его как аномальный образец, если он не соответствует паттерну нормальных образцов.
Data Science
Какие статистические параметры более полезны для обнаружения аномалий и выбросов? Среднее, максимум, минимум, дисперсия?
00
Вопрос или проблема Этот временной ряд содержит некоторые временные рамки, каждая из которых составляет 8K (частоты)*151 (временные выборки) за 0.5 секунды [всего 1.2288 миллиона выборок за полсекунды] Мне нужно найти аномальные значения на основе различных строк (частот).
Data Science
Существуют ли библиотеки для генерации синтетических аномалий в временных рядах на Python?
00
Вопрос или проблема Я работаю над обнаружением аномалий в данных временных рядов и мне нужно добавить синтетические аномалии в существующие данные временных рядов (чтобы протестировать алгоритмы обнаружения аномалий). Я могу сделать это, запустив функцию
Data Science
Эффективное обнаружение аномалий в неупорядоченных рыночных данных – возможно ли это?
00
Вопрос или проблема Я немного запутался, как эффективно смоделировать обнаружение аномалий для следующей проблемы, вероятно, из-за отсутствия опыта в моделировании временных рядов: Я получаю рыночные данные, отсортированные по временной метке, содержащие
Data Science
Полунадзорное обнаружение аномалий
00
Вопрос или проблема В настоящее время я исследую методы обнаружения аномалий для своей работы, и, в основном, я изучил метод локального фактора аномалий и изоляционные леса, оба метода являются неконтролируемыми. Дело в том, что может возникнуть ситуация
Data Science
Как я могу найти аномалии в признаках на основе разницы между истинными и предсказанными целями?
00
Вопрос или проблема В общем, проблема заключается в следующем: существует целевая величина (эффективность мобильных станций). Цель состоит в том, чтобы найти станции, которые работают неэффективно, и выявить причины этого. Кроме того, желаем найти средства
Data Science
Как найти вертикальные кластеры в одномерных данных
00
Вопрос или проблема У меня есть остатки многомерных временных рядов, полученные с датчиков на сервере. Всплески на графиках остатка указывают на аномальное состояние сервера. Я хочу сгруппировать данные по вертикальным кластерам и получить индексы точек
Data Science
Какова степень сходства между обучающими данными и данными о доходах?
00
Вопрос или проблема Я пытаюсь использовать методы кластеризации и классификации, такие как SVM, с использованием scikit-learn. Я также изучаю детекцию выбросов/новизны. Мне нужна что-то вроде полуподконтрольной модели. Я хочу предсказать некоторые метки
Data Science
Обнаружение аномалий в базе данных
00
Вопрос или проблема У нас есть производственная база данных. Нагрузка на базу данных варьируется в разное время. Я хочу выявить аномалии; например, количество процессов базы данных, отвечающих на запросы пользователей в 9 утра, составляет 100 в определённый день.
Data Science
Как обрабатывать предсказания с двумя категории переменными высокой кардинальности?
00
Вопрос или проблема Заголовок: Как справиться с прогнозами с двумя категориальными переменными высокой кардинальности? Текст: Здравствуйте, всем, Я работаю над проектом в области машинного обучения и был бы признателен за советы по выбору лучших методов обработки моих данных.
Data Science
Набор данных анализа логов с помеченными проблемами кибербезопасности
00
Вопрос или проблема Я ищу набор данных с файловыми журналами, которые содержат помеченные проблемы в области кибербезопасности. Поскольку я пытаюсь создать модель анализа журналов кибербезопасности, предпочтений по типу журналов нет, но предпочтительным