feature-selection
Data Science
Вопрос или проблема Извините за очень специфичный вопрос. У меня есть набор данных генов, с помощью которого я использую машинное обучение для предсказания того, вызывает ли ген заболевание. Одна из характеристик, которую я имею, –
Data Science
Вопрос или проблема Наш продукт имеет анкету для внедрения, которая задает одинаковые 58 вопросов (с числовыми ответами) каждому новому пользователю. Это много вопросов, поэтому нам хотелось бы сократить количество вопросов, которые мы задаем каждому новому пользователю.
Data Science
Вопрос или проблема У меня есть набор данных с 19 тысячами наблюдений. Каждое из них имеет примерно 448 признаков: – Текстовое описание, переведенное в векторы размером 300 – 16 категориальных переменных, представленных числовым образом –
Data Science
Вопрос или проблема В настоящее время я участвую в конкурсе на Kaggle, и мой набор данных содержит около 100 переменных. Мне интересно, как другие обычно подходят к выбору признаков, когда у них так много переменных, особенно если у них нет экспертных знаний в данной области.
Data Science
Вопрос или проблема Я работаю с набором данных, который содержит 30 столбцов (29 числовых и 1 ненумеративный категориальный). Я применил метод one-hot кодирования для категориальной переменной и в итоге получил 35 столбцов. Чтобы улучшить эффективность
Data Science
Вопрос или проблема У меня есть задача классификации на клинических данных, где у каждого пациента есть несколько образцов. Таким образом, образцы, относящиеся к одному пациенту, в какой-то степени зависимы друг от друга. Я знаю, что невозможно заранее
Data Science
Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.
Data Science
Вопрос или проблема Я пытаюсь обучить модель LSTM (многие ко одному) с входными мультивариантными временными рядами и категориальным выходом. После достаточно долгого обучения полученная модель все еще имеет низкую точность и высокую потерю на валидационных данных.
Data Science
Вопрос или проблема Существует существующий балл, состоящий из 10 параметров; каждый параметр имеет равный вес, и общий балл определяется путем суммирования баллов для каждого параметра. Я хочу попытаться уменьшить число параметров в этом балле, но сохранить их равный вес.
Data Science
Вопрос или проблема У меня есть вектор, который представляет мой объект и выполняет задачу вычисления, какой объект похож на другой объект, используя косинусное сходство. Чтобы создать этот вектор, я объединил множество характеристик, которые могут представлять уникальный объект.
Data Science
Вопрос или проблема Как указано в заголовке, мне интересно, существует ли работа по достижению отбора признаков на основе кластера, к которому принадлежит точка данных (например, каждый кластер имеет свой набор выбранных признаков).
Data Science
Вопрос или проблема Я использую Catboost, и одно из замечаний в руководстве заключается в том, что сказано не производить предварительную обработку с помощью one-hot кодирования. В моих данных имеется единичная цель на строку, однако признак может иметь
Data Science
Вопрос или проблема Я работаю с реальными данными пациентов. У меня есть набор данных с информацией о 10 миллионах пациентов, собранный за разный период времени (от 5 до 20 лет). Что я предсказываю, так это бинарный риск (или, возможно, вероятность этого
Data Science
Вопрос или проблема У меня есть вопрос о выборе признаков в наборе данных, где целевая переменная агрегируется по сумме различных данных. Я хочу предсказать количество продаж в зависимости от различных признаков, таких как: неделя цена за единицу страна
Data Science
Вопрос или проблема У меня есть набор данных, полученный из НЛП для технических документов. Мой набор данных содержит 60 000 записей. В наборе данных имеется 30 000 признаков. Значение – это количество повторений, сколько раз слово/признак появлялось.
Data Science
Вопрос или проблема Этот вопрос относится в целом ко всем автоматизированным методам выбора признаков. В моем конкретном случае у нас есть Python-пакет под названием tsfresh и задача многоклассовой классификации. Что было сделано до сих пор?
Data Science
Вопрос или проблема Я попытался использовать алгоритм OMP, доступный в scikit-learn. Мой размер данных, который включает как целевой сигнал, так и словарь, составляет примерно 1 Гб. Однако, когда я запустил код, он завершился с ошибкой памяти.
Data Science
Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных
Data Science
Вопрос или проблема Теперь, конечно, не существует идеального числа, так как каждая задача уникальна, но я несколько дней искал в Google, ChatGPT и на YouTube ответ на этот вопрос и постоянно получал противоречивые отзывы. Некоторые источники говорят
Data Science
Вопрос или проблема У меня есть данные временного ряда о том, как семья тратит деньги на разные продукты. Каждый продукт отнесён к категории (это может быть путь категории из двух уровней), например, (Еда > Курица) или (Личные принадлежности > Макияж).