feature-engineering
Data Science
Вопрос или проблема Допустим, у нас есть набор данных, и мы хотим ранжировать его по сходству распределений. Я не хочу использовать визуализацию. Есть ли какой-либо подходящий способ, которым вы можете со мной поделиться? У меня есть идея, например, мы
Data Science
Вопрос или проблема Я испытываю затруднения в выборе метода отбора признаков, который я должен использовать в моем исследовании, цель которого — проанализировать, какие признаки являются значимыми для представления определенного состояния человеческого
Data Science
Вопрос или проблема Я создаю модель нейронной сети, чтобы предсказать, какой студент в классе наберет наивысший балл на предстоящем экзамене (это не настоящая задача, я изменил задачу, чтобы сохранить конфиденциальность, но она очень похожа на ту, над которой я работаю).
Data Science
Вопрос или проблема У меня есть набор данных, касающийся людей, завершающих обзоры, целевая переменная — является ли решение по обзору правильным/неправильным, а одна из моих характеристик — это показатель точности за последние 4 недели для рецензента.
Data Science
Вопрос или проблема В моем проекте машинного обучения на основе регрессии у меня есть такие признаки, как координаты (широта и долгота), которые я предпочитаю не масштабировать и не преобразовывать. Основная причина в том, что обратное преобразование
Data Science
Вопрос или проблема У меня есть набор данных, который содержит пользователей (строки) со списком их интересов (IABs), который выглядит следующим образом: user_id | gender | list of interests --------+--------+-------------------------------- user 1 |
Data Science
Вопрос или проблема Имея почасовые обновления данных о количестве осадков (за предыдущий час) и температуре, как бы вы определили, скользко или нет? . Ответ или решение Теория (Theory) Определение скользкости дорог является важной задачей, особенно в
Data Science
Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный
Data Science
Вопрос или проблема У меня есть несбалансированные данные, состоящие из девяти классов, и я планирую объединить их в два класса. Я провел стратифицированную (пропорциональную) выборку между тестовыми, валидационными и обучающими наборами данных в соответствии с девятью классами.
Data Science
Вопрос или проблема Цель заключается в прогнозировании отказа/неотказа маршрутизатора (1/0) в будущем временном окне с использованием всех данных, собранных за последний час (т.е. бинарная цель). Данные получаются на двух уровнях: Метрики маршрутизатора
Data Science
Вопрос или проблема У меня есть набор данных с множеством упорядоченных признаков, большинство из которых имеют 3 уровня (например, 0, 1, 2), а моя целевая переменная подвергнута цензуре. Я размышляю, следует ли рассматривать эти порядковые признаки как
Data Science
Вопрос или проблема У меня есть набор данных с параметрами (признаками) a, b, c и т.д. Нам нужно разработать модель для предсказания a (наша цель). b значительно коррелирует с a (85%), и я подозреваю линейную зависимость. c является измерением b на другой
Data Science
Вопрос или проблема При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test? Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?
Data Science
Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.
Data Science
Вопрос или проблема Я заметил, что при разработке моделей машинного обучения очень важным шагом в инженерии признаков является добавление новых признаков, которые могут лучше объяснить целевую переменную. Недавно я столкнулся с ситуацией, когда добавление
Data Science
Вопрос или проблема Предположим, что есть 2000 фильмов, и компания хочет рекомендовать некоторые фильмы (например, максимум 5 фильмов) каждому посетителю. Цель состоит в том, чтобы научиться предсказывать, какой фильм будет выбран, если предложен определенный набор фильмов.
Data Science
Вопрос или проблема Я проходил онлайн-курс по машинному обучению, и лектор сказал, что общее правило для выбора числа размерностей при внедрении категориальных данных следующее размерность векторного внедрения должна быть 4-м корнем из числа категорий
Data Science
Вопрос или проблема Например, скажем, я пытаюсь предсказать, выиграю ли я свою следующую игру в пинг-понг. Некоторые характеристики, которые я имею, это количество ударов, сколько воды я выпил и т. д., а также продолжительность матча.
Data Science
Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у
Data Science
Вопрос или проблема У меня есть признак, который имеет определенные категориальные значения, например (Технологии, Оборудование, Программное обеспечение, Маркетинг, События и т.д.). На основе этого и некоторых других признаков я пытаюсь классифицировать