Вопрос или проблема
У меня есть вопрос о методе главных компонент (PCA). Я знаю, что если у вас есть коррелированные переменные (x1, x2, x3, x4), то хорошо провести PCA, чтобы получить новые некоррелированные переменные (pc1, pc2), которые используются вместо исходных коррелированных переменных. Мой вопрос в том, что если у вас есть pc1, pc2 (например), то веса не обязательно должны зависеть от наиболее сильно коррелированных переменных (допустим, сильно коррелированные переменные это x1 и x2). Вы можете иметь сильное влияние от x1 и x3 для pc1. Сильно коррелированные переменные не обязательно должны иметь сильное влияние на pc1, pc2, pc3 или pc4.
Можете ли вы это подтвердить?
Если я правильно понимаю вопрос, вы хотите знать, влияют ли некоррелированные переменные на результат PCA. Ответ – да, это, в общем, основная идея PCA: чем меньше коррелированы оригинальные переменные, тем больше они вносят вклад в разные главные компоненты. Вкратце, главные компоненты являются собственными векторами ковариационной матрицы исходных данных, и дисперсия, связанная с каждым собственным вектором, это соответствующее собственное значение.
Еще один способ об этом думать: если у вас есть 2 идеально коррелированных переменные, скажем, x2 = 2*x1, вы можете полностью избавиться от x2 и не потерять возможность делать предсказания. Чем меньше две переменные коррелированы, тем больше вы хотите сохранить обе из них.
Ответ или решение
Теория
При помощи главных компонент анализа (PCA) можно преобразовать набор коррелированных переменных в новый набор некоррелированных переменных, называемых главными компонентами. Обычно PCA используется для уменьшения размерности данных, сохраняя при этом как можно больше информации. При этом наиболее значимые главные компоненты определяются максимизацией дисперсии данных вдоль новых осей.
Каждая главная компонента является линейной комбинацией исходных переменных, и коэффициенты этой линейной комбинации называются нагрузками (loadings). Эти нагрузки представляют собой косинус углов между векторами переменных и главным компонентом в пространстве многомерных данных.
Пример
Представим, что у нас есть четыре переменные: x1, x2, x3 и x4. Если, например, x1 и x2 имеют высокий уровень корреляции, это не обязательно означает, что они будут основными факторами первой главной компоненты pc1 в PCA. В реальных данных, x1 может оказать значительное влияние на pc1 вместе с x3, в то время как x2 и x4 могут влиять на другие компоненты. Это явление объясняется тем, что PCA направлена на максимизацию дисперсии по каждой главной оси, а не просто на учет корреляции между переменными.
Применение
На практике важно помнить, что PCA преобразует данные в такое пространство, где направленные оси (главные компоненты) обладают свойством ортогональности и максимизируют различие между данными. Это значит, что даже если переменные демонстрируют высокую взаимную корреляцию, PCA может использовать различные комбинации этих переменных для определения новых осей.
При выполнении PCA для анализа данных всегда стоит проверять веса (или нагрузки) каждой из главных компонент, чтобы лучше понять, какие переменные вносят больший вклад в те или иные компоненты. Благодаря этому, замечая, какие переменные имеют наибольшие воздействия на компоненты, можно сделать выводы о структуре данных и принять более обоснованные решения по дальнейшему анализу или визуализации.
В заключение, несмотря на существование корреляций между переменными, их влияние на главные компоненты зависит от распределения и вариации данных, а не исключительно от уровня корреляции. Это делает PCA мощным инструментом для анализа структур данных с целью их упрощения и визуализации.