Мультиколлинеарность и точные веса предикторов

Вопрос или проблема

Предположим, что стоимость акций различных компаний является целью моих моделей.

У меня есть некоторые «внутренние» предикторы, например, годовые продажи каждой компании, сумма зарплат в каждой компании и т. д.

У меня есть некоторые «внешние» предикторы, например, географическое положение каждой компании (широта и долгота), население в области, в которой работает каждая компания, и т. д.

Таким образом, каждое наблюдение в моем наборе данных касается стоимости акций компании вместе с её внутренними и внешними предикторами.

Цель моего проекта – понять, как каждый из внутренних предикторов компании влияет очень специфическим образом на стоимость акций соответствующей компании.

Проще говоря, я хочу получить точные веса для внутренних предикторов, которые показывают, как именно они влияют на стоимость акций соответствующей компании.

Однако, поскольку существует относительно высокая мультиколлинеарность между некоторыми из внутренних предикторов, в результате я не получаю очень точные веса для каждого из них.

Также может существовать мультиколлинеарность между внутренними и внешними предикторами, но я не считаю это проблемой, потому что думаю, что нужно учитывать все внешние предикторы при оценке веса внутренних предикторов.

Тем не менее, я не уверен, что мне следует объединять все внутренние предикторы в одну модель, потому что, например, я не хочу, чтобы вес годовых продаж компании изменялся из-за присутствия других внутренних предикторов, таких как сумма зарплат в этой компании.

В этом отношении я начинаю думать, что лучший подход – создать несколько различных моделей, где каждая из них относится к одному внутреннему предиктору отдельно, но в каждом случае все внешние предикторы.

Имеет ли это смысл?

Есть ли у вас какие-либо лучшие идеи?

П.С.
Я только что нашел пост, который довольно похож на мою логику: https://www.researchgate.net/post/Is_building_separate_models_a_solution_to_multi-collinearity.

Если вы создаете отдельные модели, вы делаете внутренние предикторы/функции независимыми друг от друга. Это приведет к тому, что многие ваши внутренние предикторы получат очень высокие веса, что, вероятно, не было бы так, если бы вы объединили их в одну модель. Очевидным методом является удаление коррелированных предикторов и затем проверка, какие веса вы получите.

Один из способов – использовать методы уменьшения размерности, такие как PCA, чтобы удалить это. Или вы можете использовать метод регуляризации, такой как гребневая регрессия.

Ответ или решение

Мультиколлинеарность и точные веса предикторов в модели

При работе с предикторами в модели, направленной на прогнозирование стоимости акций компаний, важно учитывать мультиколлинеарность. Это явление возникает, когда два или более предиктора высоко коррелированы, что может затруднить интерпретацию их коэффициентов (весов) в модели.

Понимание проблемы

Вы упомянули наличие как внутренних, так и внешних предикторов. Внутренние предикторы, такие как годовой доход и сумма зарплат, могут быть взаимосвязаны между собой. Это может привести к проблемам при оценке их влияния на целевую переменную — стоимость акции. Высокая мультиколлинеарность делает коэффициенты регрессии нестабильными и чувствительными к изменениям выборки, что затрудняет их интерпретацию.

Ваша идея использовать отдельные модели для каждой внутренней переменной в сочетании с внешними предикторами имеет свои преимущества, однако стоит учесть несколько особенностей.

Рассмотрение модели с отдельными предикторами

  1. Изолированная оценка влияния: Построение отдельных моделей для каждого внутреннего предиктора действительно позволит вам получить более точные веса, так как каждый предиктор будет оцениваться независимо от других. Однако, это будет означать утрату информации о взаимосвязях между внутренними предикторами.

  2. Суммарное поведение предикторов: Модели, основанные на изоляции, могут производить слишком высокие веса для внутренних предикторов. Это связано с тем, что модели не смогут учитывать взаимное влияние предикторов. Например, если годовой доход влияет на зарплаты, то при их изоляции один из предикторов может показать непропорционально высокие коэффициенты.

Альтернативные подходы

Чтобы избежать проблем с мультиколлинеарностью и одновременно оценить влиятельность ваших внутренних предикторов, вы можете рассмотреть следующие методы:

  1. Удаление коррелирующих предикторов: Вы можете провести анализ корреляции и удалить предикторы, которые имеют высокую корреляцию друг с другом. Однако, этот метод не всегда является идеальным, так как вес данных предикторов может содержать важную информацию.

  2. Методы пониженной размерности: Применение методов, таких как анализ главных компонент (PCA), может помочь сгладить мультиколлинеарность, сокращая размерность данных и сохраняя основную дисперсию. Это позволит извлечь важные признаки и снизить влияние коллинеарности.

  3. Регуляризация: Модели, применяющие регуляризацию, такие как сглаженная регрессия (Ridge) или лассо (Lasso), могут быть полезными. Они внедряют штрафы для больших весов, что помогает избежать проблемы внезапного изменения коэффициентов в зависимости от других предикторов.

  4. Модели с взаимодействиями: Если вы настаиваете на использовании всех внутренних предикторов вместе, рассмотрите возможность введения взаимодействий между ними в вашу модель. Это поможет учесть влияние одного предиктора на другой.

Заключение

Итак, ваша стратегия построения отдельных моделей для каждого внутреннего предиктора имеет свои преимущества, но следует быть осторожным, так как это может привести к недооценке взаимосвязей между ними. Использование методов устранения коллинеарности или регуляризации открывает новые горизонты в понимании влияния внутренних предикторов. Каждый подход имеет свои достоинства и недостатки, и выбор между ними зависит от специфики вашего анализа и доступных данных.

Оцените материал
Добавить комментарий

Капча загружается...