Как выполнить отбор признаков в наборе данных с категориальными и числовыми признаками?

Question 1

Я работаю с набором данных, который содержит 30 столбцов (29 числовых и 1 ненумеративный категориальный). Я применил метод one-hot кодирования для категориальной переменной и в итоге получил 35 столбцов. Чтобы улучшить эффективность обучения, хочу провести отбор признаков в моем наборе данных. Однако я запутался, как работать с набором данных, содержащим как категориальные, так и числовые признаки.

Я читал, что применять PCA к фиктивным переменным нецелесообразно, так как они дискретные. Уместно ли сначала применить PCA к числовым признакам, а затем объединить их с фиктивными?
Я пытался применить рекурсивное исключение признаков с кросс-валидацией (RFECV) ко всему пространству признаков. Но я не думаю, что целесообразно удалять некоторые фиктивные признаки, но не все, так как они получены из одной категории.

Есть ли какие-нибудь предложения? Буду признателен за любую помощь.

python pandas scikit-learn отбор-признаков

Question 2

Применение техники отбора признаков к переменным, закодированным методом one-hot, вполне допустимо. Потому что если какой-то сегмент этой переменной коррелирует с вашей целевой переменной, это хорошая новость. Ваша модель лучше поймет ситуацию.

Или вы можете сначала закодировать категориальную переменную метками, чтобы у вас осталось 30 переменных (29 числовых + 1 закодированная категориальная переменная). Теперь попробуйте определить значимость каждого признака и оставьте только релевантные (используйте любой метод для этого: будь то RFE, отбор признаков с помощью случайного леса, корреляция Пирсона и т. д.). Как только у вас будет окончательный список признаков, а закодированная переменная тоже окажется актуальной, можно включать её в модель.

Question 3

Отбор признаков или инженерия признаков больше является искусством, чем просто применением доступных техник.

Я рекомендую вам заниматься/изучать интеллектуальный EDA и пытаться устранить/создать/объединить признаки.

– Kaggle имеет множество ядер/обсуждений на эту тему.

– Для обогащения интуиции прочитайте эту книгу, особенно главу #04. Инженерия и отбор признаков. Обратите внимание, как автор проводит анализ различных находок в EDA.

Кодирование категориальных признаков –

– У вас только 1 категориальный признак с небольшой кардинальностью и 29 числовых признаков. Я бы посоветовал устранить числовые признаки. Вы можете попробовать PCA на подмножестве признаков. Ссылка.
Попробуйте на 29 и посмотрите на результаты.

– Попробуйте другие подходы к кодированию категориальных данных. Используйте эти ссылки category_encoders. Читайте ссылки из справочного раздела, чтобы получить больше понимания. Даже для OHE вам понравится эта библиотека.

незаслуженно удалять некоторые, но не все фиктивные признаки, так как они получены из одной категории

Как только вы закодируете категориальный признак, у вас появится новый набор признаков. Вы рассматриваете каждый из них как независимый признак. Возможно, по результатам анализа окажется, что лишь несколько из них не полезны, и мы удалим их.

PCA для данных с кодированием One Hot

-Вы получите вывод, но я не уверен насчет добавления в предсказательную силу. Есть несколько противоречивых ссылок. Ссылка – Reddit $\hspace{1cm}$Ссылка – SE

– Есть и другие техники, предлагаемые для категориальных и смешанных данных. Ссылка-SE $\hspace{1cm}$Библиотека

Попробуйте разные комбинации и посмотрите.

В конце концов, попробуйте технику важности признаков, используя случайный лес.Ссылка – MachineLearning Mastery

Question 4

Вы можете использовать пакет Dython для получения корреляции между всеми видами переменных (категориальными и числовыми) и затем установить порог для выбора необходимых переменных. Например, вы можете выбрать переменные, имеющие корреляцию более 0.5 с вашей целевой переменной. После этого вы можете построить основную модель на их основе.

Question 5

Основываясь на тегах, которые вы предоставили для этого вопроса, хорошим (но не обязательно лучшим) и очень простым подходом было бы использовать SelectFromModel. Я бы использовал RandomForestClassifier, поскольку он хорошо обрабатывает наборы данных с числовыми и категориальными признаками и достаточно устойчив к нереформатированным признакам.

Вы правы – удалять некоторые, но не все фиктивные переменные, неправильно. На самом деле, удаление их изменит их значение. Если у вас есть возможность, просто не применяйте OHE для категориальных признаков на этапе выбора признаков, а (возможно) сделайте это после. Более того, если вы используете вышеупомянутое предложение (SelectFromModel + RandomForestClassifier), вам действительно не нужно кодировать категориальные признаки методом OHE. Вы можете просто использовать LabelEncoder

Как выполнить отбор признаков в наборе данных с категориальными и числовыми признаками?

Вопрос или проблема

Ответ или решение

Как выполнить отбор признаков в наборе данных с категориальными и числовыми признаками

Подготовка данных

1. Кодирование категориальных признаков

2. Подбор метода отбора признаков

А. Метод "Random Forest"

B. Обратное устранение признаков (RFE)

C. Кросс-валидация

3. Применение PCA

4. Исследовательский анализ данных (EDA)

Итоговые рекомендации