feature-selection
Data Science
Вопрос или проблема Я пытаюсь обучить модель LSTM (многие ко одному) с входными мультивариантными временными рядами и категориальным выходом. После достаточно долгого обучения полученная модель все еще имеет низкую точность и высокую потерю на валидационных данных.
Data Science
Вопрос или проблема Существует существующий балл, состоящий из 10 параметров; каждый параметр имеет равный вес, и общий балл определяется путем суммирования баллов для каждого параметра. Я хочу попытаться уменьшить число параметров в этом балле, но сохранить их равный вес.
Data Science
Вопрос или проблема У меня есть вектор, который представляет мой объект и выполняет задачу вычисления, какой объект похож на другой объект, используя косинусное сходство. Чтобы создать этот вектор, я объединил множество характеристик, которые могут представлять уникальный объект.
Data Science
Вопрос или проблема Как указано в заголовке, мне интересно, существует ли работа по достижению отбора признаков на основе кластера, к которому принадлежит точка данных (например, каждый кластер имеет свой набор выбранных признаков).
Data Science
Вопрос или проблема Я использую Catboost, и одно из замечаний в руководстве заключается в том, что сказано не производить предварительную обработку с помощью one-hot кодирования. В моих данных имеется единичная цель на строку, однако признак может иметь
Data Science
Вопрос или проблема Я работаю с реальными данными пациентов. У меня есть набор данных с информацией о 10 миллионах пациентов, собранный за разный период времени (от 5 до 20 лет). Что я предсказываю, так это бинарный риск (или, возможно, вероятность этого
Data Science
Вопрос или проблема У меня есть вопрос о выборе признаков в наборе данных, где целевая переменная агрегируется по сумме различных данных. Я хочу предсказать количество продаж в зависимости от различных признаков, таких как: неделя цена за единицу страна
Data Science
Вопрос или проблема У меня есть набор данных, полученный из НЛП для технических документов. Мой набор данных содержит 60 000 записей. В наборе данных имеется 30 000 признаков. Значение – это количество повторений, сколько раз слово/признак появлялось.
Data Science
Вопрос или проблема Этот вопрос относится в целом ко всем автоматизированным методам выбора признаков. В моем конкретном случае у нас есть Python-пакет под названием tsfresh и задача многоклассовой классификации. Что было сделано до сих пор?
Data Science
Вопрос или проблема Я попытался использовать алгоритм OMP, доступный в scikit-learn. Мой размер данных, который включает как целевой сигнал, так и словарь, составляет примерно 1 Гб. Однако, когда я запустил код, он завершился с ошибкой памяти.
Data Science
Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных
Data Science
Вопрос или проблема Теперь, конечно, не существует идеального числа, так как каждая задача уникальна, но я несколько дней искал в Google, ChatGPT и на YouTube ответ на этот вопрос и постоянно получал противоречивые отзывы. Некоторые источники говорят
Data Science
Вопрос или проблема У меня есть данные временного ряда о том, как семья тратит деньги на разные продукты. Каждый продукт отнесён к категории (это может быть путь категории из двух уровней), например, (Еда > Курица) или (Личные принадлежности > Макияж).
Data Science
Вопрос или проблема У меня есть интересная проблема, не знаю даже, с чего начать. Я работаю над бинарным классификатором, который будет принимать химическое название, закодированное в виде строки, и прогнозировать, является ли оно ‘
Data Science
Вопрос или проблема Как говорит заголовок: Мне поставили задачу предсказать центры затрат для данных о грузоперевозках. Я совершенно не представляю, как это сделать. Уникальное количество центров затрат превышает 5000, а количество признаков составляет около 100.