Data Science
Расчет риска или степени скользкости на основе исторических данных о погоде.
00
Вопрос или проблема Имея почасовые обновления данных о количестве осадков (за предыдущий час) и температуре, как бы вы определили, скользко или нет? . Ответ или решение Теория (Theory) Определение скользкости дорог является важной задачей, особенно в
Data Science
Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?
00
Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный
Data Science
Вопрос о коллапсировании переменной и сверхвыборке меньшинств.
00
Вопрос или проблема У меня есть несбалансированные данные, состоящие из девяти классов, и я планирую объединить их в два класса. Я провел стратифицированную (пропорциональную) выборку между тестовыми, валидационными и обучающими наборами данных в соответствии с девятью классами.
Data Science
Агрегация низкоуровневых признаков для классификатора
00
Вопрос или проблема Цель заключается в прогнозировании отказа/неотказа маршрутизатора (1/0) в будущем временном окне с использованием всех данных, собранных за последний час (т.е. бинарная цель). Данные получаются на двух уровнях: Метрики маршрутизатора
Data Science
Как мне обращаться с упорядоченными признаками при наличии цензурированной зависимой переменной?
00
Вопрос или проблема У меня есть набор данных с множеством упорядоченных признаков, большинство из которых имеют 3 уровня (например, 0, 1, 2), а моя целевая переменная подвергнута цензуре. Я размышляю, следует ли рассматривать эти порядковые признаки как
Data Science
Линейная и нелинейная зависимость в единой DS модели
00
Вопрос или проблема У меня есть набор данных с параметрами (признаками) a, b, c и т.д. Нам нужно разработать модель для предсказания a (наша цель). b значительно коррелирует с a (85%), и я подозреваю линейную зависимость. c является измерением b на другой
Data Science
Почему использовать Scaler.fit только на x_train, а не на x_test для нормализации значений с помощью MinMaxScaler?
00
Вопрос или проблема При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test? Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?
Data Science
Важный выбор признаков с использованием алгоритмов уменьшения размерности.
00
Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.
Data Science
Как узнать оптимальное количество признаков для использования?
00
Вопрос или проблема Я заметил, что при разработке моделей машинного обучения очень важным шагом в инженерии признаков является добавление новых признаков, которые могут лучше объяснить целевую переменную. Недавно я столкнулся с ситуацией, когда добавление
Data Science
Как смоделировать систему рекомендателей с учителем с изменяющимися данными
00
Вопрос или проблема Предположим, что есть 2000 фильмов, и компания хочет рекомендовать некоторые фильмы (например, максимум 5 фильмов) каждому посетителю. Цель состоит в том, чтобы научиться предсказывать, какой фильм будет выбран, если предложен определенный набор фильмов.
Data Science
Кто-нибудь знает, откуда взялось это правило? Правило таково: размерность векторного представления должна быть четвертой коренной из числа категорий.
00
Вопрос или проблема Я проходил онлайн-курс по машинному обучению, и лектор сказал, что общее правило для выбора числа размерностей при внедрении категориальных данных следующее размерность векторного внедрения должна быть 4-м корнем из числа категорий
Data Science
Как мне работать с колонками, основанными на временной длительности, в классификации?
00
Вопрос или проблема Например, скажем, я пытаюсь предсказать, выиграю ли я свою следующую игру в пинг-понг. Некоторые характеристики, которые я имею, это количество ударов, сколько воды я выпил и т. д., а также продолжительность матча.
Data Science
Метод выбора признаков для улучшения кластеризации?
00
Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у
Data Science
Циклическая зависимость между классом признака и классом предсказателя
00
Вопрос или проблема У меня есть признак, который имеет определенные категориальные значения, например (Технологии, Оборудование, Программное обеспечение, Маркетинг, События и т.д.). На основе этого и некоторых других признаков я пытаюсь классифицировать
Data Science
Как сгруппировать категориальные столбцы по подобным типам?
00
Вопрос или проблема (Простите, если вопрос сформулирован неудачно. Я новичок в области Data Science. Пожалуйста, прокомментируйте или отредактируйте, чтобы улучшить вопрос) У меня есть набор данных, где необходимо предсказать будущую продажу магазина. “
Data Science
Почему мне не следует использовать Id как поле в инженерии признаков для машинного обучения?
01
Вопрос или проблема Почему при создании признаков и извлечении признаков я не должен использовать Ид в таких задачах, как регрессия Ид, как имя человека, обычно является уникальным идентификатором, не имеющим значимого отношения к целевой переменной.
Data Science
Как выполнить целевое кодирование, когда данные содержат повторяющиеся строки?
00
Вопрос или проблема Как мне выполнить кодирование для категории, если данные содержат повторяющиеся строки? Могу ли я выполнить целевое кодирование? Или могу использовать другое кодирование? Я хочу выяснить, как включить категориальную переменную в модель
Data Science
Как вводить множества в качестве признаков
00
Вопрос или проблема Нужен совет по лучшему способу представления представленных ниже данных для подачи в алгоритм машинного обучения (который еще предстоит выбрать). Это связано с процессом онлайн-заказов. Заказ состоит из набора переменного количества товаров.
Data Science
Метрики для оценки важности признаков в задаче классификации (с использованием случайного леса)
00
Вопрос или проблема Я хочу оценить важность каждой из признаков в наборе данных 2000×60 в задаче классификации с использованием случайного леса. Самыми широко используемыми, по всей видимости, являются: Кросс-энтропия –
Data Science
Снижение признаков путем удаления определенных столбцов в датафрейме
00
Вопрос или проблема Я работаю с моделью распознавания эмоций на датасете IEMOCAP. Для извлечения признаков я беру мел-спектрограмму, затем преобразую её в массив NumPy и преобразую массив в датафрейм признаков спектрограммы. Сгенерированный датафрейм