outlier
Data Science
Вопрос или проблема У меня есть временные ряды данных, содержащие действия пользователей в определенные интервалы времени, например, Дата UserId Директория операция Результат 01/01/2017 99:00 user1 dir1 created_file success 01/01/2017 99:00 user3 dir10
Data Science
Вопрос или проблема Ниже приведен мой код, который берет диапазон чисел и создает новый столбец label, содержащий либо -1, либо 1. Если число больше 14000, мы маркируем его как -1 (выброс). Если число меньше 14000, мы маркируем его как 1 (нормальное значение).
Data Science
Вопрос или проблема У меня есть процесс, который (проще говоря), запускается каждые 5 минут, собирает данные и записывает эти данные в базу данных. Более подробное объяснение: процесс запускается, собирает данные (что занимает некоторое время) и размещает
Data Science
Вопрос или проблема Просто вопрос, я знаю, что когда мы строим график распределения числовых данных, те, кто падает за пределы ящика диаграммы (точка в форме ромба), считаются выбросами. Однако я столкнулся с случаем, когда большинство моих данных для этого атрибута равно 0.
Data Science
Вопрос или проблема Я использую медиану абсолютных отклонений (MAD) для обнаружения выбросов. Но проблема с MAD заключается в том, что если 50% или больше значений в выборке идентичны, то MAD = 0, что нежелательно. Есть ли способ решить эту проблему?
Data Science
Вопрос или проблема Может кто-нибудь подсказать, какой будет лучший способ удалить такое огромное количество выбросов из изображения. Обычное обрезание диапазона данных в массиве numpy просто уменьшит форму данных, и восстановление изображения не будет
Data Science
Вопрос или проблема У меня есть несколько рядов цен одного и того же актива, как показано ниже. Визуально очевидно, что ряд “A” (горизонтальная линия) является выбросом, и ряд “E” (линия с зигзагообразным паттерном) также ведет себя иначе.
Data Science
Вопрос или проблема В настоящее время я исследую методы обнаружения аномалий для своей работы, и, в основном, я изучил метод локального фактора аномалий и изоляционные леса, оба метода являются неконтролируемыми. Дело в том, что может возникнуть ситуация
Data Science
Вопрос или проблема У меня есть гипотетический сценарий, в котором у меня есть 100 классификаторов, к которым, если ввести имя человека, они вернут класс для этого человека. Например. Ввод1 –Дональд Трамп 30 из 100 классификаторов возвращают политик
Data Science
Вопрос или проблема Я занимаюсь обнаружением выбросов (условные выбросы) в многомерном временном ряду. Выбросы появляются каждые 2 недели $\pm$ 4 дня. Как я могу учесть этот предварительный опыт в своих моделях, чтобы снизить количество ложноположительных результатов?
Data Science
Вопрос или проблема Может кто-то предоставить мне набор данных, желательно на Kaggle, где я смогу практиковать свои навыки в анализе выбросов? Я изучаю эту тему уже довольно долго, но не могу найти исследование случая, чтобы применить свои знания?
Data Science
Вопрос или проблема В случае обучения нейронной сети на задаче регрессии. Предполагая, что в данных присутствует значительное количество выбросов. При условии, что ошибка должна измеряться по методу RMS, а не MAE. Может ли быть лучше (то есть менее чувствительно
Data Science
Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока
Data Science
Вопрос или проблема У меня есть набор данных в формате GPS: широта, долгота. Я хочу обнаружить аномалии с помощью Python. Я тестировал knn, smv, cof, iforest используя pycaret. Но у меня не получилось. Эти цвета аномальны, потому что угол изменения слишком
Data Science
Вопрос или проблема Я анализирую портфель из aproximadamente 225 акций и получил данные для каждой из них, основываясь на их “коэффициенте цена/прибыль”, “рентабельности активов” и “росте прибыли на акцию”
Data Science
Вопрос или проблема У меня есть набор данных с 1000 строками и 4 колонками с 3 выбросами. Я хочу добавить еще 7 выбросов, связанных с ними, для обнаружения при помощи кластеризации. Пример того, что я сделал Col1 col2 Col3 col4 Out1 a1 b1 c1 d1 Out2 a2
Data Science
Вопрос или проблема У меня есть много наборов данных, где измеренное значение либо «нормальное» (т.е. процесс работает), либо аномальное (т.е. процесс не работает). К сожалению, у меня нет измерений, которые ясно указывают на то, что процесс работает
Data Science
Вопрос или проблема Я планирую использовать Isolation Forests в R (пакет solitude) для выявления выбросов в медицинских исках в моих данных. Каждая строка в моих данных представляет собой группу лекарств, которые каждый провайдер назначал за последние 12 месяцев.
Data Science
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера
Data Science
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения