feature-engineering
Data Science
Вопрос или проблема У меня есть проект по созданию компьютерной музыки, и я хотел бы классифицировать короткие фрагменты музыки как “хорошие” или “плохие” с помощью машинного обучения. У меня не будет большого набора для обучения.
Data Science
Вопрос или проблема При использовании библиотеки tsfresh для извлечения признаков возможно ли запустить калькулятор признаков , который принимает результаты другого калькулятора признаков в качестве своих параметров? Например, я хочу рассчитать (или аппроксимировать) частоту моего сигнала.
Data Science
Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –
Data Science
Вопрос или проблема У меня есть проблема с оценкой клиентов, над которой я работаю, в частности, с прогнозированием конверсии и подсчетом вероятностного балла конверсии (в данный момент используется классификатор xgboost). Есть один признак, который я
Data Science
Как обрабатывать один столбец с непрерывными и категориальными данными для модели машинного обучения
Вопрос или проблема Я работаю с финансовыми данными, где у меня есть признак (столбец) с 90% значений в диапазоне от 0 до 1000 (непрерывные) и 10% значений как -1, -2 и -9. (значения по умолчанию) Определение значений по умолчанию: -1: данные недоступны
Data Science
Вопрос или проблема В чем различия между Взаимодействиями признаков и Важностью признаков? Моя точка зрения: Важность признака: Как признак способствовал предсказанию? Это будет коэффициент, если это линейная регрессия с IID данными.
Data Science
Вопрос или проблема Я пытаюсь улучшить точность. Я создал несколько новых признаков на основе старых признаков. Поэтому мне нужно заполнить пустые ячейки новых признаков одинаковыми значениями, чтобы уравнять формы. Затем я попробовал это с медианой
Data Science
Вопрос или проблема У меня есть проблема регрессии, которая заключается в прогнозировании артериального давления пациента по ряду показателей жизненно важных функций, включая PTT, PPG и ЧСС. Каждая из этих входных характеристик была собрана с одинаковой
Data Science
Вопрос или проблема Это то, что кажется очень простым для решения, но я не смог найти никаких подсказок – возможно, я задаю неправильный вопрос в Google. Допустим, вы владеете интернет-компанией. У вас есть общий объем потребления вашего клиента
Data Science
Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.
Data Science
Вопрос или проблема Я изучаю классическую задачу предсказания цен на квартиры (вторичный рынок) в зависимости от их типа, размера, местоположения и т. д. Довольно просто, и линейная регрессия или регрессионные деревья дают первые приличные результаты
Data Science
Вопрос или проблема Я пытаюсь обучить модель LSTM (многие ко одному) с входными мультивариантными временными рядами и категориальным выходом. После достаточно долгого обучения полученная модель все еще имеет низкую точность и высокую потерю на валидационных данных.
Data Science
Вопрос или проблема Я пытаюсь изучить логистическую регрессию. Когда я сделал целевую переменную со всеми признаками, у меня был итог, показывающий p-значения, как обычно, но один из признаков имеет 60 уровней, другой признак имеет 13 уровней.
Data Science
Вопрос или проблема У меня есть две базы данных с около 60,000 примеров каждая. Обе имеют одинаковые характеристики (одинаковые названия столбцов), которые представляют собой определенные вещи с текстом или категориями (превращенными в числа).
Data Science
Вопрос или проблема Я работаю над созданием модели для классификации типа касания, которое делает пользователь (долгое нажатие, смахивание влево, смахивание вправо и так далее). У меня есть данные с характеристиками, которые описывают касание пользователя
Data Science
Вопрос или проблема Я использую Catboost, и одно из замечаний в руководстве заключается в том, что сказано не производить предварительную обработку с помощью one-hot кодирования. В моих данных имеется единичная цель на строку, однако признак может иметь
Data Science
Вопрос или проблема У меня есть набор данных, полученный из НЛП для технических документов. Мой набор данных содержит 60 000 записей. В наборе данных имеется 30 000 признаков. Значение – это количество повторений, сколько раз слово/признак появлялось.
Data Science
Вопрос или проблема Учитывая, что нужно приписать класс группам измерений с помощью классификационной модели, каким образом можно включить информацию о точности измерений? Более конкретно, существует ли стратегия инженерии признаков для включения информации
Data Science
Вопрос или проблема Я хочу использовать VGG16 (или VGG19) для задачи кластеризации голосов. Я читал несколько статей, которые предлагают использовать VGG (16 или 19) для построения векторного встраивания для алгоритма кластеризации.
Data Science
Вопрос или проблема У меня есть данные временного ряда о том, как семья тратит деньги на разные продукты. Каждый продукт отнесён к категории (это может быть путь категории из двух уровней), например, (Еда > Курица) или (Личные принадлежности > Макияж).