outlier
Data Science
Вопрос или проблема Может кто-то предоставить мне набор данных, желательно на Kaggle, где я смогу практиковать свои навыки в анализе выбросов? Я изучаю эту тему уже довольно долго, но не могу найти исследование случая, чтобы применить свои знания?
Data Science
Вопрос или проблема В случае обучения нейронной сети на задаче регрессии. Предполагая, что в данных присутствует значительное количество выбросов. При условии, что ошибка должна измеряться по методу RMS, а не MAE. Может ли быть лучше (то есть менее чувствительно
Data Science
Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока
Data Science
Вопрос или проблема У меня есть набор данных в формате GPS: широта, долгота. Я хочу обнаружить аномалии с помощью Python. Я тестировал knn, smv, cof, iforest используя pycaret. Но у меня не получилось. Эти цвета аномальны, потому что угол изменения слишком
Data Science
Вопрос или проблема Я анализирую портфель из aproximadamente 225 акций и получил данные для каждой из них, основываясь на их “коэффициенте цена/прибыль”, “рентабельности активов” и “росте прибыли на акцию”
Data Science
Вопрос или проблема У меня есть набор данных с 1000 строками и 4 колонками с 3 выбросами. Я хочу добавить еще 7 выбросов, связанных с ними, для обнаружения при помощи кластеризации. Пример того, что я сделал Col1 col2 Col3 col4 Out1 a1 b1 c1 d1 Out2 a2
Data Science
Вопрос или проблема У меня есть много наборов данных, где измеренное значение либо «нормальное» (т.е. процесс работает), либо аномальное (т.е. процесс не работает). К сожалению, у меня нет измерений, которые ясно указывают на то, что процесс работает
Data Science
Вопрос или проблема Я планирую использовать Isolation Forests в R (пакет solitude) для выявления выбросов в медицинских исках в моих данных. Каждая строка в моих данных представляет собой группу лекарств, которые каждый провайдер назначал за последние 12 месяцев.
Data Science
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера
Data Science
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения
Data Science
Вопрос или проблема Мне стало интересно, могу ли я создать модель, которая будет присваивать оценку рисков записи, используя в качестве входных данных числовые и категориальные признаки, если у меня есть набор данных с категориальными и числовыми данными
Data Science
Вопрос или проблема Наш csv содержит 36 колонок 1 колонка времени, собранная каждые 30 минут 3 переменные (количество, задержка, общее время) x 10 признаков (вход-выход пользователя, серверный вход-выход, параллелизм и т.д.) различных точек данных с сервера: пример –
Data Science
Вопрос или проблема Удаление выбросов из одноберных данных можно легко выполнить, убирая точки, которые находятся за пределами диапазона IQR. Но как должен проходить процесс обнаружения и удаления выбросов, если набор данных состоит из нескольких измерений?
Data Science
Вопрос или проблема У меня есть набор данных, который сводится к трем столбцам: 1. Название поставщика 2. Количество транзакций с поставщиком 3. Общая стоимость этих транзакций. Я пытаюсь найти лучший способ ранжирования всех поставщиков на основе этих
Data Science
Вопрос или проблема Например, я получил следующий результат фактора VIF (weekday_ – это кодирование с помощью one-hot): VIF Factor features 0 0.000000 Intercept ... 9 51.136294 utc_timestamp 10 19.603974 weekday_Friday 11 10.
Data Science
Вопрос или проблема Я пытаюсь построить простую регрессионную модель для начала, но моя переменная Y сильно смещена вправо. Моя Y представляет собой количество просмотров в день для веб-страницы, и все значения выше 0. У меня есть 4 крупных выброса со
Data Science
Вопрос или проблема У меня есть набор данных, в котором есть колонка цен, колонка дат и различные другие колонки с числовыми и категориальными значениями. Я хотел бы найти выбросы цен на основе всех колонок в наборе данных, и для этого я решил использовать
Data Science
Вопрос или проблема Я сталкиваюсь с проблемой, когда мне нужно обнаружить выбросы в сборе данных. Цель состоит в том, чтобы выявлять выбросы по переменной Y на основе ее связи с переменной X. Для этого я сделал следующее: Построил график в логарифмическом
Data Science
Вопрос или проблема Я работаю над некоторыми алгоритмами для обнаружения аномалий. Набор данных чистый от аномалий, поэтому я хочу добавить несколько искусственных аномалий. Я добавил некоторые аномалии. Я получаю максимальное значение в наборе данных