feature-engineering - ответы на вопросы - Page 3 of 4

Data Science

Можно ли использовать рекомендательную систему в качестве бинарного классификатора?

00

Вопрос или проблема У меня есть проект по созданию компьютерной музыки, и я хотел бы классифицировать короткие фрагменты музыки как “хорошие” или “плохие” с помощью машинного обучения. У меня не будет большого набора для обучения.

Data Science

Как использовать калькулятор признаков tsfresh с результатами от другого калькулятора признаков

00

Вопрос или проблема При использовании библиотеки tsfresh для извлечения признаков возможно ли запустить калькулятор признаков , который принимает результаты другого калькулятора признаков в качестве своих параметров? Например, я хочу рассчитать (или аппроксимировать) частоту моего сигнала.

Data Science

Кто написал формулу важности Джини/оценки важности признаков в sklearn?

00

Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –

Data Science

Инженерия признаков: признак свежести

00

Вопрос или проблема У меня есть проблема с оценкой клиентов, над которой я работаю, в частности, с прогнозированием конверсии и подсчетом вероятностного балла конверсии (в данный момент используется классификатор xgboost). Есть один признак, который я

Data Science

Как обрабатывать один столбец с непрерывными и категориальными данными для модели машинного обучения

00

Вопрос или проблема Я работаю с финансовыми данными, где у меня есть признак (столбец) с 90% значений в диапазоне от 0 до 1000 (непрерывные) и 10% значений как -1, -2 и -9. (значения по умолчанию) Определение значений по умолчанию: -1: данные недоступны

Data Science

Взаимодействия признаков против Важности признаков

00

Вопрос или проблема В чем различия между Взаимодействиями признаков и Важностью признаков? Моя точка зрения: Важность признака: Как признак способствовал предсказанию? Это будет коэффициент, если это линейная регрессия с IID данными.

Data Science

Заполнение созданной функции значениями

00

Вопрос или проблема Я пытаюсь улучшить точность. Я создал несколько новых признаков на основе старых признаков. Поэтому мне нужно заполнить пустые ячейки новых признаков одинаковыми значениями, чтобы уравнять формы. Затем я попробовал это с медианой

Data Science

Целевая переменная временного ряда взята на гораздо более низкой частоте выборки, чем входные характеристики.

00

Вопрос или проблема У меня есть проблема регрессии, которая заключается в прогнозировании артериального давления пациента по ряду показателей жизненно важных функций, включая PTT, PPG и ЧСС. Каждая из этих входных характеристик была собрана с одинаковой

Data Science

Что делать, когда вы разрабатываете функцию, а знаменатель равен нулю?

00

Вопрос или проблема Это то, что кажется очень простым для решения, но я не смог найти никаких подсказок – возможно, я задаю неправильный вопрос в Google. Допустим, вы владеете интернет-компанией. У вас есть общий объем потребления вашего клиента

Data Science

Добавление признаков с высоким p-значением и низким R-квадратом в линейную регрессию для улучшения результата.

00

Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.

Data Science

Как лучше всего использовать год сделок перепродажи для прогнозирования цен на жилье?

00

Вопрос или проблема Я изучаю классическую задачу предсказания цен на квартиры (вторичный рынок) в зависимости от их типа, размера, местоположения и т. д. Довольно просто, и линейная регрессия или регрессионные деревья дают первые приличные результаты

Data Science

как проверить, имеют ли метки реальные зависимости от признаков?

00

Вопрос или проблема Я пытаюсь обучить модель LSTM (многие ко одному) с входными мультивариантными временными рядами и категориальным выходом. После достаточно долгого обучения полученная модель все еще имеет низкую точность и высокую потерю на валидационных данных.

Data Science

Логистическая регрессия Многоуровневые независимые переменные

00

Вопрос или проблема Я пытаюсь изучить логистическую регрессию. Когда я сделал целевую переменную со всеми признаками, у меня был итог, показывающий p-значения, как обычно, но один из признаков имеет 60 уровней, другой признак имеет 13 уровней.

Data Science

Как обучить модель для предсказания, относятся ли 2 образца к одному и тому же?

00

Вопрос или проблема У меня есть две базы данных с около 60,000 примеров каждая. Обе имеют одинаковые характеристики (одинаковые названия столбцов), которые представляют собой определенные вещи с текстом или категориями (превращенными в числа).

Data Science

Как передать данные переменной длины в нейронную сеть в качестве признака?

00

Вопрос или проблема Я работаю над созданием модели для классификации типа касания, которое делает пользователь (долгое нажатие, смахивание влево, смахивание вправо и так далее). У меня есть данные с характеристиками, которые описывают касание пользователя

Data Science

Как обрабатывать переменное количество значений признаков (1:многие) без one-hot кодирования

00

Вопрос или проблема Я использую Catboost, и одно из замечаний в руководстве заключается в том, что сказано не производить предварительную обработку с помощью one-hot кодирования. В моих данных имеется единичная цель на строку, однако признак может иметь

Data Science

Какие методы выбора признаков для обработки естественного языка это представляет?

00

Вопрос или проблема У меня есть набор данных, полученный из НЛП для технических документов. Мой набор данных содержит 60 000 записей. В наборе данных имеется 30 000 признаков. Значение – это количество повторений, сколько раз слово/признак появлялось.

Data Science

Как использовать метаданные точности измерений в классификаторе

00

Вопрос или проблема Учитывая, что нужно приписать класс группам измерений с помощью классификационной модели, каким образом можно включить информацию о точности измерений? Более конкретно, существует ли стратегия инженерии признаков для включения информации

Data Science

Существуют ли веса звука или аудио для VGG или Inception?

00

Вопрос или проблема Я хочу использовать VGG16 (или VGG19) для задачи кластеризации голосов. Я читал несколько статей, которые предлагают использовать VGG (16 или 19) для построения векторного встраивания для алгоритма кластеризации.

Data Science

Я пытаюсь построить модель логистической регрессии.

00

Вопрос или проблема У меня есть данные временного ряда о том, как семья тратит деньги на разные продукты. Каждый продукт отнесён к категории (это может быть путь категории из двух уровней), например, (Еда > Курица) или (Личные принадлежности > Макияж).