outlier - ответы на вопросы

Data Science

Предложение алгоритма для обнаружения аномалий в многомерных временных рядах.

00

Вопрос или проблема У меня есть временные ряды данных, содержащие действия пользователей в определенные интервалы времени, например, Дата UserId Директория операция Результат 01/01/2017 99:00 user1 dir1 created_file success 01/01/2017 99:00 user3 dir10

Data Science

Многие разделяющие линии с использованием RBF ядра в SVM.

00

Вопрос или проблема Ниже приведен мой код, который берет диапазон чисел и создает новый столбец label, содержащий либо -1, либо 1. Если число больше 14000, мы маркируем его как -1 (выброс). Если число меньше 14000, мы маркируем его как 1 (нормальное значение).

Data Science

Как найти аномалии в (почти) постоянном потоке данных?

00

Вопрос или проблема У меня есть процесс, который (проще говоря), запускается каждые 5 минут, собирает данные и записывает эти данные в базу данных. Более подробное объяснение: процесс запускается, собирает данные (что занимает некоторое время) и размещает

Data Science

Обработка выбросов, когда большинство значений равно 0.

00

Вопрос или проблема Просто вопрос, я знаю, что когда мы строим график распределения числовых данных, те, кто падает за пределы ящика диаграммы (точка в форме ромба), считаются выбросами. Однако я столкнулся с случаем, когда большинство моих данных для этого атрибута равно 0.

Data Science

Проблема с медианной абсолютной девиацией

00

Вопрос или проблема Я использую медиану абсолютных отклонений (MAD) для обнаружения выбросов. Но проблема с MAD заключается в том, что если 50% или больше значений в выборке идентичны, то MAD = 0, что нежелательно. Есть ли способ решить эту проблему?

Data Science

Удаление выбросов из массива изображений в Python

00

Вопрос или проблема Может кто-нибудь подсказать, какой будет лучший способ удалить такое огромное количество выбросов из изображения. Обычное обрезание диапазона данных в массиве numpy просто уменьшит форму данных, и восстановление изображения не будет

Data Science

Как определить, является ли целая серия выбросом по отношению к другим?

00

Вопрос или проблема У меня есть несколько рядов цен одного и того же актива, как показано ниже. Визуально очевидно, что ряд “A” (горизонтальная линия) является выбросом, и ряд “E” (линия с зигзагообразным паттерном) также ведет себя иначе.

Data Science

Полунадзорное обнаружение аномалий

00

Вопрос или проблема В настоящее время я исследую методы обнаружения аномалий для своей работы, и, в основном, я изучил метод локального фактора аномалий и изоляционные леса, оба метода являются неконтролируемыми. Дело в том, что может возникнуть ситуация

Data Science

Математический способ выявления неправильных предложений или выбросов.

00

Вопрос или проблема У меня есть гипотетический сценарий, в котором у меня есть 100 классификаторов, к которым, если ввести имя человека, они вернут класс для этого человека. Например. Ввод1 –Дональд Трамп 30 из 100 классификаторов возвращают политик

Data Science

Используя частоту выброса

00

Вопрос или проблема Я занимаюсь обнаружением выбросов (условные выбросы) в многомерном временном ряду. Выбросы появляются каждые 2 недели $\pm$ 4 дня. Как я могу учесть этот предварительный опыт в своих моделях, чтобы снизить количество ложноположительных результатов?

Data Science

Где я могу практиковаться в обнаружении многомерных выбросов?

00

Вопрос или проблема Может кто-то предоставить мне набор данных, желательно на Kaggle, где я смогу практиковать свои навыки в анализе выбросов? Я изучаю эту тему уже довольно долго, но не могу найти исследование случая, чтобы применить свои знания?

Data Science

Замена среднего на медиану по размеру партии, чтобы уменьшить влияние выбросов.

00

Вопрос или проблема В случае обучения нейронной сети на задаче регрессии. Предполагая, что в данных присутствует значительное количество выбросов. При условии, что ошибка должна измеряться по методу RMS, а не MAE. Может ли быть лучше (то есть менее чувствительно

Data Science

Обнаружение аномалий/выбросов в реальном времени?

00

Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока

Data Science

Как выполнять обнаружение аномалий в GPS-данных на Python

00

Вопрос или проблема У меня есть набор данных в формате GPS: широта, долгота. Я хочу обнаружить аномалии с помощью Python. Я тестировал knn, smv, cof, iforest используя pycaret. Но у меня не получилось. Эти цвета аномальны, потому что угол изменения слишком

Data Science

Какой самый эффективный алгоритм неконтролируемого машинного обучения следует использовать, когда в наборе данных присутствуют выбросы?

00

Вопрос или проблема Я анализирую портфель из aproximadamente 225 акций и получил данные для каждой из них, основываясь на их “коэффициенте цена/прибыль”, “рентабельности активов” и “росте прибыли на акцию”

Data Science

Как увеличить количество выбросов в наборе данных?

00

Вопрос или проблема У меня есть набор данных с 1000 строками и 4 колонками с 3 выбросами. Я хочу добавить еще 7 выбросов, связанных с ними, для обнаружения при помощи кластеризации. Пример того, что я сделал Col1 col2 Col3 col4 Out1 a1 b1 c1 d1 Out2 a2

Data Science

Как улучшить идентификацию выбросов для удаления

00

Вопрос или проблема У меня есть много наборов данных, где измеренное значение либо «нормальное» (т.е. процесс работает), либо аномальное (т.е. процесс не работает). К сожалению, у меня нет измерений, которые ясно указывают на то, что процесс работает

Data Science

Word2vec для кодирования медицинских процедур при использовании изолирующих лесов

00

Вопрос или проблема Я планирую использовать Isolation Forests в R (пакет solitude) для выявления выбросов в медицинских исках в моих данных. Каждая строка в моих данных представляет собой группу лекарств, которые каждый провайдер назначал за последние 12 месяцев.

Data Science

Как удовлетворить концепцию масштабируемости с помощью алгоритмов DBSCAN и LOF

00

Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера

Data Science

Правильный порядок подготовки данных в машинном обучении

00

Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения