feature-selection
Data Science
Вопрос или проблема Я хотел бы проанализировать данные о вращении головы в пространстве. Для этого я измерял вращение вокруг углов X, Y и Z с частотой 15 Гц в течение чуть больше десяти минут. Я хотел бы использовать эти движения, чтобы проанализировать
Data Science
Вопрос или проблема У меня есть данные, которые включают непрерывные и категориальные признаки. Задача заключается в регрессии, и я ищу способ удалить признаки, которые сильно коррелируют с другими признаками (мультиколлинеарность).
Data Science
Вопрос или проблема Я продолжаю читать, что Наивный Байес требует меньше признаков, чем многие другие алгоритмы машинного обучения. Но каково минимальное количество признаков, которое вам на самом деле нужно, чтобы получить хорошие результаты (90% точности)
Data Science
Вопрос или проблема Я работаю над задачей бинарной классификации с 1000 строками и 20 переменными. У меня есть такие переменные, как product_id, city, state, country, product family, product type, product segment и так далее. Как видно, большинство моих
Data Science
Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.
Data Science
Вопрос или проблема У меня есть числовая переменная, называемая $x$, и категориальная переменная, называемая $y$. $y$ является порядковой переменной (A,B,C,D,E,F). Я использую кодирование меток для своей переменной $y$, и когда я смотрю на корреляцию
Data Science
Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –
Data Science
Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).
Data Science
Как обрабатывать один столбец с непрерывными и категориальными данными для модели машинного обучения
Вопрос или проблема Я работаю с финансовыми данными, где у меня есть признак (столбец) с 90% значений в диапазоне от 0 до 1000 (непрерывные) и 10% значений как -1, -2 и -9. (значения по умолчанию) Определение значений по умолчанию: -1: данные недоступны
Data Science
Вопрос или проблема Я начинающий в scikit-learn, и у меня небольшая проблема при использовании модуля отбора признаков VarianceThreshold. Проблема в том, что когда я устанавливаю дисперсию Var[X]=.8*(1-.8) предполагается, что будут удалены все признаки
Data Science
Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?
Data Science
Вопрос или проблема import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data=pd.read_csv(‘filename.csv’) x = data.data y = data.target Преобразование в DataFrame для лучшей визуализации column_names = [f’
Data Science
Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.
Data Science
Вопрос или проблема Извините за очень специфичный вопрос. У меня есть набор данных генов, с помощью которого я использую машинное обучение для предсказания того, вызывает ли ген заболевание. Одна из характеристик, которую я имею, –
Data Science
Вопрос или проблема Наш продукт имеет анкету для внедрения, которая задает одинаковые 58 вопросов (с числовыми ответами) каждому новому пользователю. Это много вопросов, поэтому нам хотелось бы сократить количество вопросов, которые мы задаем каждому новому пользователю.
Data Science
Вопрос или проблема У меня есть набор данных с 19 тысячами наблюдений. Каждое из них имеет примерно 448 признаков: – Текстовое описание, переведенное в векторы размером 300 – 16 категориальных переменных, представленных числовым образом –
Data Science
Вопрос или проблема В настоящее время я участвую в конкурсе на Kaggle, и мой набор данных содержит около 100 переменных. Мне интересно, как другие обычно подходят к выбору признаков, когда у них так много переменных, особенно если у них нет экспертных знаний в данной области.
Data Science
Вопрос или проблема Я работаю с набором данных, который содержит 30 столбцов (29 числовых и 1 ненумеративный категориальный). Я применил метод one-hot кодирования для категориальной переменной и в итоге получил 35 столбцов. Чтобы улучшить эффективность
Data Science
Вопрос или проблема У меня есть задача классификации на клинических данных, где у каждого пациента есть несколько образцов. Таким образом, образцы, относящиеся к одному пациенту, в какой-то степени зависимы друг от друга. Я знаю, что невозможно заранее
Data Science
Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.