feature-engineering
Data Science
Вопрос или проблема Это то, что кажется очень простым для решения, но я не смог найти никаких подсказок – возможно, я задаю неправильный вопрос в Google. Допустим, вы владеете интернет-компанией. У вас есть общий объем потребления вашего клиента
Data Science
Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.
Data Science
Вопрос или проблема Я изучаю классическую задачу предсказания цен на квартиры (вторичный рынок) в зависимости от их типа, размера, местоположения и т. д. Довольно просто, и линейная регрессия или регрессионные деревья дают первые приличные результаты
Data Science
Вопрос или проблема Я пытаюсь обучить модель LSTM (многие ко одному) с входными мультивариантными временными рядами и категориальным выходом. После достаточно долгого обучения полученная модель все еще имеет низкую точность и высокую потерю на валидационных данных.
Data Science
Вопрос или проблема Я пытаюсь изучить логистическую регрессию. Когда я сделал целевую переменную со всеми признаками, у меня был итог, показывающий p-значения, как обычно, но один из признаков имеет 60 уровней, другой признак имеет 13 уровней.
Data Science
Вопрос или проблема У меня есть две базы данных с около 60,000 примеров каждая. Обе имеют одинаковые характеристики (одинаковые названия столбцов), которые представляют собой определенные вещи с текстом или категориями (превращенными в числа).
Data Science
Вопрос или проблема Я работаю над созданием модели для классификации типа касания, которое делает пользователь (долгое нажатие, смахивание влево, смахивание вправо и так далее). У меня есть данные с характеристиками, которые описывают касание пользователя
Data Science
Вопрос или проблема Я использую Catboost, и одно из замечаний в руководстве заключается в том, что сказано не производить предварительную обработку с помощью one-hot кодирования. В моих данных имеется единичная цель на строку, однако признак может иметь
Data Science
Вопрос или проблема У меня есть набор данных, полученный из НЛП для технических документов. Мой набор данных содержит 60 000 записей. В наборе данных имеется 30 000 признаков. Значение – это количество повторений, сколько раз слово/признак появлялось.
Data Science
Вопрос или проблема Учитывая, что нужно приписать класс группам измерений с помощью классификационной модели, каким образом можно включить информацию о точности измерений? Более конкретно, существует ли стратегия инженерии признаков для включения информации
Data Science
Вопрос или проблема Я хочу использовать VGG16 (или VGG19) для задачи кластеризации голосов. Я читал несколько статей, которые предлагают использовать VGG (16 или 19) для построения векторного встраивания для алгоритма кластеризации.
Data Science
Вопрос или проблема У меня есть данные временного ряда о том, как семья тратит деньги на разные продукты. Каждый продукт отнесён к категории (это может быть путь категории из двух уровней), например, (Еда > Курица) или (Личные принадлежности > Макияж).
Data Science
Вопрос или проблема Я пытаюсь обучить простую нейронную сеть для многоклассовой классификации. У меня есть столбцы x1, x2, x3, x4 с 4 классами для предсказания. Если тренировать только на x1, x2, x3, x4, то я получаю точность 88% С некоторыми знаниями