feature-engineering - ответы на вопросы

Data Science

Как оценить степень связанности двух признаков в наборе данных по их распределению?

00

Вопрос или проблема Допустим, у нас есть набор данных, и мы хотим ранжировать его по сходству распределений. Я не хочу использовать визуализацию. Есть ли какой-либо подходящий способ, которым вы можете со мной поделиться? У меня есть идея, например, мы

Data Science

Методы корректного отбора признаков для классификации сигнала на две категории.

00

Вопрос или проблема Я испытываю затруднения в выборе метода отбора признаков, который я должен использовать в моем исследовании, цель которого — проанализировать, какие признаки являются значимыми для представления определенного состояния человеческого

Data Science

Как представить структурированные входные данные в нейронной сети для прогноза с несколькими сущностями?

00

Вопрос или проблема Я создаю модель нейронной сети, чтобы предсказать, какой студент в классе наберет наивысший балл на предстоящем экзамене (это не настоящая задача, я изменил задачу, чтобы сохранить конфиденциальность, но она очень похожа на ту, над которой я работаю).

Data Science

Машинное обучение с преднамеренными пропусками данных

00

Вопрос или проблема У меня есть набор данных, касающийся людей, завершающих обзоры, целевая переменная — является ли решение по обзору правильным/неправильным, а одна из моих характеристик — это показатель точности за последние 4 недели для рецензента.

Data Science

Я не масштабировал все характеристики, которые использовал для прогнозирования, имеет ли это смысл?

00

Вопрос или проблема В моем проекте машинного обучения на основе регрессии у меня есть такие признаки, как координаты (широта и долгота), которые я предпочитаю не масштабировать и не преобразовывать. Основная причина в том, что обратное преобразование

Data Science

Фичевая инженерия для классификации возраста на основе интересов

00

Вопрос или проблема У меня есть набор данных, который содержит пользователей (строки) со списком их интересов (IABs), который выглядит следующим образом: user_id | gender | list of interests --------+--------+-------------------------------- user 1 |

Data Science

Расчет риска или степени скользкости на основе исторических данных о погоде.

00

Вопрос или проблема Имея почасовые обновления данных о количестве осадков (за предыдущий час) и температуре, как бы вы определили, скользко или нет? . Ответ или решение Теория (Theory) Определение скользкости дорог является важной задачей, особенно в

Data Science

Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?

00

Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный

Data Science

Вопрос о коллапсировании переменной и сверхвыборке меньшинств.

00

Вопрос или проблема У меня есть несбалансированные данные, состоящие из девяти классов, и я планирую объединить их в два класса. Я провел стратифицированную (пропорциональную) выборку между тестовыми, валидационными и обучающими наборами данных в соответствии с девятью классами.

Data Science

Агрегация низкоуровневых признаков для классификатора

00

Вопрос или проблема Цель заключается в прогнозировании отказа/неотказа маршрутизатора (1/0) в будущем временном окне с использованием всех данных, собранных за последний час (т.е. бинарная цель). Данные получаются на двух уровнях: Метрики маршрутизатора

Data Science

Как мне обращаться с упорядоченными признаками при наличии цензурированной зависимой переменной?

00

Вопрос или проблема У меня есть набор данных с множеством упорядоченных признаков, большинство из которых имеют 3 уровня (например, 0, 1, 2), а моя целевая переменная подвергнута цензуре. Я размышляю, следует ли рассматривать эти порядковые признаки как

Data Science

Линейная и нелинейная зависимость в единой DS модели

00

Вопрос или проблема У меня есть набор данных с параметрами (признаками) a, b, c и т.д. Нам нужно разработать модель для предсказания a (наша цель). b значительно коррелирует с a (85%), и я подозреваю линейную зависимость. c является измерением b на другой

Data Science

Почему использовать Scaler.fit только на x_train, а не на x_test для нормализации значений с помощью MinMaxScaler?

00

Вопрос или проблема При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test? Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?

Data Science

Важный выбор признаков с использованием алгоритмов уменьшения размерности.

00

Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.

Data Science

Как узнать оптимальное количество признаков для использования?

00

Вопрос или проблема Я заметил, что при разработке моделей машинного обучения очень важным шагом в инженерии признаков является добавление новых признаков, которые могут лучше объяснить целевую переменную. Недавно я столкнулся с ситуацией, когда добавление

Data Science

Как смоделировать систему рекомендателей с учителем с изменяющимися данными

00

Вопрос или проблема Предположим, что есть 2000 фильмов, и компания хочет рекомендовать некоторые фильмы (например, максимум 5 фильмов) каждому посетителю. Цель состоит в том, чтобы научиться предсказывать, какой фильм будет выбран, если предложен определенный набор фильмов.

Data Science

Кто-нибудь знает, откуда взялось это правило? Правило таково: размерность векторного представления должна быть четвертой коренной из числа категорий.

00

Вопрос или проблема Я проходил онлайн-курс по машинному обучению, и лектор сказал, что общее правило для выбора числа размерностей при внедрении категориальных данных следующее размерность векторного внедрения должна быть 4-м корнем из числа категорий

Data Science

Как мне работать с колонками, основанными на временной длительности, в классификации?

00

Вопрос или проблема Например, скажем, я пытаюсь предсказать, выиграю ли я свою следующую игру в пинг-понг. Некоторые характеристики, которые я имею, это количество ударов, сколько воды я выпил и т. д., а также продолжительность матча.

Data Science

Метод выбора признаков для улучшения кластеризации?

00

Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у

Data Science

Циклическая зависимость между классом признака и классом предсказателя

00

Вопрос или проблема У меня есть признак, который имеет определенные категориальные значения, например (Технологии, Оборудование, Программное обеспечение, Маркетинг, События и т.д.). На основе этого и некоторых других признаков я пытаюсь классифицировать