Вопрос или проблема
Я приведу простой пример. Предположим, вас наняла транспортная компания предсказать, сколько лет прослужат их грузовики. У них есть инвентарь из 200 грузовиков, и компания требует от вас использования 80 характеристик в вашей модели. Предположим, что данные уже предварительно обработаны и готовы к использованию. Кроме того, они хотят оценить важность переменных, чтобы определить, на чем сосредоточить свои усилия, чтобы их грузовики служили дольше.
У нас здесь очень широкий набор данных. Теперь к моему предложению:
- Предположим, мы можем разделить эти 80 характеристик на 6 логических групп (например, техническое обслуживание, тип транспортного средства и т. д.). Сделайте это.
- Выполните PCA для каждой группы, чтобы получить первую компоненту, и удалите исходные характеристики. У нас остается набор данных (200, 6).
- Разделите данные, создайте модель регрессии, настройте параметры и так далее.
- Примените SHAP к характеристикам.
Эта техника позволяет избежать проблемы сложности понимания характеристик SHAP, так как каждая компонента не состоит из каждой исходной характеристики, а только из характеристик своей группы. Очевидный недостаток, который я вижу, заключается в том, что мы явно теряем часть вариации в исходном наборе данных, и количество будет зависеть от того, насколько полно покрывает каждую первую компоненту.
Является ли это рекомендуемым подходом? Я не могу найти литературу, подтверждающую или опровергающую это.
Ответ или решение
Использование метода главных компонент (PCA) для группировки признаков в категории может быть полезным в зависимости от конкретных обстоятельств задачи. Рассмотрим детально, насколько целесообразен такой подход в заданной ситуации, учитывая условия задачи.
Проблемы и подход:
Вы работаете с 80 признаками, которые необходимо использовать для предсказания срока службы грузовиков в компании. Учитывая размерность данных и их широкую структуру, возникает естественная необходимость в снижении размерности и повышении интерпретируемости модели. В этом контексте вы предлагаете сгруппировать признаки логически и использовать PCA для получения первой главной компоненты каждой группы.
Этапы работы:
-
Категоризация признаков: Это поможет структурировать данные и выделить логические группы признаков, такие как техническое обслуживание или тип транспортного средства. Это все еще допускает интерпретацию внутри групп.
-
Применение PCA: Использование первого компонента каждой группы помогает сократить количество признаков до 6, но вы должны осознавать, что теряется часть оригинальной информации. Потерянная дисперсия может оказать влияние на модель, и ее нужно оценить до применения PCA.
-
Моделирование и оценка: Полученные главные компоненты использовать в регрессионной модели. Здесь также можно настроить параметры модели для достижения оптимальной производительности.
-
Интерпретация модели с SHAP: Учитывая редуцированное количество признаков, объяснение модели окажется проще. Однако для надежной интерпретации важно, чтобы главные компоненты действительно отражали значимые аспекты каждой группы признаков.
Преимущества и недостатки:
Преимущества:
- Снижение размерности упрощает модель и делает ее работу более быстрой.
- Легкость интерпретации за счет меньшего количества признаков, что критично для бизнес-аналитики.
Недостатки:
- Потеря информации: первый компонент может не отражать всю полезную вариацию признаков.
- Сложность объяснения: пользователям может быть сложно понять, какие конкретные реальные признаки влияют на результат.
Заключение:
Подход с использованием PCA для уменьшения размерности набора данных в конкретных условиях не является универсальным и требует детального анализа потери информации. Если первое преобразование сохраняет большую часть полезной вариации и группы признаков логически обоснованы, то такой метод может быть оправдан. Однако, для критического анализа важности признаков стоит сохранять осторожность и, возможно, рассмотреть альтернативные методы снижения размерности или комбинирования признаков, которые могут обеспечить лучшую интерпретацию.