Data Science
Где я могу практиковаться в обнаружении многомерных выбросов?
00
Вопрос или проблема Может кто-то предоставить мне набор данных, желательно на Kaggle, где я смогу практиковать свои навыки в анализе выбросов? Я изучаю эту тему уже довольно долго, но не могу найти исследование случая, чтобы применить свои знания?
Data Science
Замена среднего на медиану по размеру партии, чтобы уменьшить влияние выбросов.
00
Вопрос или проблема В случае обучения нейронной сети на задаче регрессии. Предполагая, что в данных присутствует значительное количество выбросов. При условии, что ошибка должна измеряться по методу RMS, а не MAE. Может ли быть лучше (то есть менее чувствительно
Data Science
Обнаружение аномалий/выбросов в реальном времени?
00
Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока
Data Science
Как выполнять обнаружение аномалий в GPS-данных на Python
00
Вопрос или проблема У меня есть набор данных в формате GPS: широта, долгота. Я хочу обнаружить аномалии с помощью Python. Я тестировал knn, smv, cof, iforest используя pycaret. Но у меня не получилось. Эти цвета аномальны, потому что угол изменения слишком
Data Science
Какой самый эффективный алгоритм неконтролируемого машинного обучения следует использовать, когда в наборе данных присутствуют выбросы?
00
Вопрос или проблема Я анализирую портфель из aproximadamente 225 акций и получил данные для каждой из них, основываясь на их “коэффициенте цена/прибыль”, “рентабельности активов” и “росте прибыли на акцию”
Data Science
Как увеличить количество выбросов в наборе данных?
00
Вопрос или проблема У меня есть набор данных с 1000 строками и 4 колонками с 3 выбросами. Я хочу добавить еще 7 выбросов, связанных с ними, для обнаружения при помощи кластеризации. Пример того, что я сделал Col1 col2 Col3 col4 Out1 a1 b1 c1 d1 Out2 a2
Data Science
Как улучшить идентификацию выбросов для удаления
00
Вопрос или проблема У меня есть много наборов данных, где измеренное значение либо «нормальное» (т.е. процесс работает), либо аномальное (т.е. процесс не работает). К сожалению, у меня нет измерений, которые ясно указывают на то, что процесс работает
Data Science
Word2vec для кодирования медицинских процедур при использовании изолирующих лесов
00
Вопрос или проблема Я планирую использовать Isolation Forests в R (пакет solitude) для выявления выбросов в медицинских исках в моих данных. Каждая строка в моих данных представляет собой группу лекарств, которые каждый провайдер назначал за последние 12 месяцев.
Data Science
Как удовлетворить концепцию масштабируемости с помощью алгоритмов DBSCAN и LOF
00
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера
Data Science
Правильный порядок подготовки данных в машинном обучении
00
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения
Data Science
Назначьте оценку риска в записях в наборе данных.
00
Вопрос или проблема Мне стало интересно, могу ли я создать модель, которая будет присваивать оценку рисков записи, используя в качестве входных данных числовые и категориальные признаки, если у меня есть набор данных с категориальными и числовыми данными
Data Science
Библиотека Python Trend многомерные временные ряды
00
Вопрос или проблема Наш csv содержит 36 колонок 1 колонка времени, собранная каждые 30 минут 3 переменные (количество, задержка, общее время) x 10 признаков (вход-выход пользователя, серверный вход-выход, параллелизм и т.д.) различных точек данных с сервера: пример –
Data Science
Удаление выбросов из многомерного набора данных и Увеличение данных
00
Вопрос или проблема Удаление выбросов из одноберных данных можно легко выполнить, убирая точки, которые находятся за пределами диапазона IQR. Но как должен проходить процесс обнаружения и удаления выбросов, если набор данных состоит из нескольких измерений?
Data Science
Как на нормализацию влияют выбросы? И как их избежать?
00
Вопрос или проблема У меня есть набор данных, который сводится к трем столбцам: 1. Название поставщика 2. Количество транзакций с поставщиком 3. Общая стоимость этих транзакций. Я пытаюсь найти лучший способ ранжирования всех поставщиков на основе этих
Data Science
Какие входные характеристики мне нужно удалить после изучения фактора инфляции дисперсии (VIF)?
00
Вопрос или проблема Например, я получил следующий результат фактора VIF (weekday_ – это кодирование с помощью one-hot): VIF Factor features 0 0.000000 Intercept ... 9 51.136294 utc_timestamp 10 19.603974 weekday_Friday 11 10.
Data Science
Регрессия в машинном обучении для скошенных данных
00
Вопрос или проблема Я пытаюсь построить простую регрессионную модель для начала, но моя переменная Y сильно смещена вправо. Моя Y представляет собой количество просмотров в день для веб-страницы, и все значения выше 0. У меня есть 4 крупных выброса со
Data Science
Как применить модель на основе дерева с числовыми и категориальными значениями для выявления выбросов
00
Вопрос или проблема У меня есть набор данных, в котором есть колонка цен, колонка дат и различные другие колонки с числовыми и категориальными значениями. Я хотел бы найти выбросы цен на основе всех колонок в наборе данных, и для этого я решил использовать
Data Science
Как определить выбросы на основе регрессии с логарифмическим масштабом?
00
Вопрос или проблема Я сталкиваюсь с проблемой, когда мне нужно обнаружить выбросы в сборе данных. Цель состоит в том, чтобы выявлять выбросы по переменной Y на основе ее связи с переменной X. Для этого я сделал следующее: Построил график в логарифмическом
Data Science
Типы искусственных аномалий
00
Вопрос или проблема Я работаю над некоторыми алгоритмами для обнаружения аномалий. Набор данных чистый от аномалий, поэтому я хочу добавить несколько искусственных аномалий. Я добавил некоторые аномалии. Я получаю максимальное значение в наборе данных