Можно ли использовать метод главных компонент (PCA) для уменьшения размерности данных, закодированных методом One-Hot-Encoding?

Question 1

Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded функции содержат только значения 0 или 1, и поэтому они будут игнорироваться (я не уверен, правильно ли понял объяснение…).

Я работаю над проектом по обнаружению аномалий без учителя с данными, содержащими в основном категориальные признаки, всего чуть более 200 признаков. Я также хотел бы использовать метод кластеризации, поэтому не уверен, неправильные ли результаты, данные PCA.

Итак, мой вопрос: можно ли использовать PCA для данных, закодированных с помощью One-Hot-Encoding? Если нет, какие другие методы можно использовать? Я стараюсь избежать t-SNE, так как он зависит от своих гиперпараметров, что делает его немного сложным в данном случае без учителя.

Question 2

PCA можно использовать для данных, закодированных с помощью One-Hot-Encoding, но это может быть не всегда наилучшим выбором, и нужно осознавать его ограничения. Когда вы выполняете PCA на данных, закодированных с помощью One-Hot-Encoding, он рассматривает двоичные переменные (0 или 1) как непрерывные и пытается найти их линейные комбинации, которые объясняют наибольшую вариацию в данных. Однако, поскольку One-Hot-Encoded переменные являются двоичными и разреженными, большая часть вариации может быть сосредоточена всего в нескольких компонентах, что приводит к неоптимальным результатам.

Вот некоторые соображения при использовании PCA с данными, закодированными с помощью One-Hot-Encoding:

Потеря интерпретируемости: PCA создаст линейные комбинации двоичных переменных, которые могут быть трудно интерпретировать в контексте исходных категориальных признаков. Новые компоненты могут не соответствовать значимым паттернам в данных.
Обработка разреженных данных: Данные, закодированные с помощью One-Hot-Encoding, являются разреженными, и PCA может не быть самым эффективным методом для обработки таких данных. Другие техники уменьшения размерности, такие как t-SNE или UMAP, могут более эффективно обрабатывать разреженные данные и давать лучшие результаты визуализации и кластеризации.
Проклятие размерности: PCA может неэффективно улавливать подлежащую структуру высокоразмерных данных, закодированных с помощью One-Hot-Encoding. “Проклятие размерности” может сделать компоненты PCA шумными и неинформативными.

Существуют специализированные техники, такие как категориальный PCA, которые специально предназначены для уменьшения размерности на данных, закодированных с помощью One-Hot-Encoding. Они учитывают двоичный характер One-Hot-Encoded признаков и могут давать лучшие результаты по сравнению с обычным PCA.

Можно ли использовать метод главных компонент (PCA) для уменьшения размерности данных, закодированных методом One-Hot-Encoding?

Вопрос или проблема

Ответ или решение