Вопрос или проблема
Коррелированные и некоррелированные термины часто используются в области науки о данных и рассматриваются как если бы они представляли коэффициент корреляции. Это правильный подход?
Да! Корреляция между признаками/атрибутами действительно имеет значение для регрессионного анализа.
Корреляция — это степень, в которой два или более признаков связаны друг с другом или демонстрируют какую-либо форму сходства в их распределении/прогрессии. Термины “Коррелированные” и “Некоррелированные” используются нами довольно часто, но я рекомендую их не использовать, потому что термины “Коррелированные” и “Некоррелированные” слишком обширны для понимания. Используйте “Сильно скоррелированные”, “Слабо скоррелированные” и “Нет корреляции”.
Коэффициент корреляции — это один из способов выразить корреляцию между признаками, который находится в диапазоне от -1 до +1. Эти коэффициенты могут показать нам степень, в которой эти признаки коррелированы.
Когда мы движемся к положительному концу, мы находим признаки, которые “Положительно скоррелированы“, что означает, что они демонстрируют высокую линейную корреляцию друг с другом в одном направлении.
В то же время, если мы движемся к отрицательному концу, мы находим признаки, которые “Отрицательно скоррелированы“, которые также коррелированы, но они демонстрируют линейную зависимость в противоположном направлении.
А посередине, у нас есть 0, который показывает “Нет корреляции“, что указывает на то, что признаки не имеют корреляции друг с другом и полностью независимы. Обычно коэффициенты около 0 (но не 0) считаются “Слабо скоррелированными“.
Хорошо, терминология объяснена, но почему это важно?
В регрессионном анализе корреляция является одной из ключевых составляющих, поскольку она значительно влияет на принятие решений в регрессионных моделях. Признаки, которые оказывают высокий уровень корреляции (как отрицательной, так и положительной) с целевой переменной/признаком, обычно считаются важными, поскольку они непосредственно влияют на результат.
Классическим примером может быть “уровень глюкозы в крови” при определении диабета. Уровень глюкозы и диабет положительно скоррелированы, то есть люди с высоким уровнем глюкозы в крови подвержены диабету. Таким образом, эти два признака естественно имеют высокий уровень корреляции. В то же время, некоторые случайные признаки, такие как время, имя пациента и номер телефона и т.д., демонстрируют “Нет корреляции”, поэтому они могут быть удалены, поскольку не вносят вклад в принятие решений и часто считаются “Шумом“.
Что происходит, когда мы включаем признаки, которые “Слабо скоррелированы и Не коррелируют”?
Признаки, которые показывают “Нет корреляции” с целевой переменной, обычно бесполезны и устарели в процессе принятия решений. Они могут быть проблематичными, так как эти признаки могут способствовать “Переобучению”, что может привести к искажению модели с помощью, казалось бы, нелогичной информации.
Признаки, которые “Слабо скоррелированы” с целевой переменной, создают аналогичные проблемы, как “Переобучение”, но их включение иногда может быть полезным. Посмотрите, “Слабая корреляция” не равнозначна “Нет корреляции” в некоторых случаях, и эти “Слабо скоррелированные” признаки могут быть действительно полезны, несмотря на их уменьшенное значение, они могут быть использованы для повышения производительности модели. Метод проб и ошибок — хорошая практика, чтобы увидеть, как эти “Слабо скоррелированные” признаки влияют на производительность модели.
Есть еще одна вещь, которую я хочу сказать, это мультиколлинеарность.
Мультиколлинеарность возникает, когда два или более признаков “Сильно скоррелированы” между собой, кроме целевой переменной. Это означает, что эти признаки влияют на целевую переменную похожим образом. Почему это проблема? Если два или более признаков “Сильно скоррелированы” между собой, то модель становится трудно определить, какой признак влияет на процесс принятия решения. Мультиколлинеарность может завысить коэффициенты, что, в свою очередь, ухудшает производительность модели.
Распространенный пример мультиколлинеарности — “Избыточные признаки”. Например, если у нас есть набор данных, который содержит следующие признаки “вес в кг” и “вес в фунтах”, которые являются избыточными, они могут показывать высокий уровень корреляции (так как они по сути одни и те же), оба признака будут влиять на модель подобным образом, и процесс вычисления коэффициентов будет ошибочным, что приведет к ухудшению производительности модели.
Лучше удалить избыточные признаки, чтобы устранить мультиколлинеарность, или мы можем использовать алгоритмы с штрафными терминами, такие как функции регуляризации в алгоритмах, таких как регрессия Лассо, регрессия Риджа или регрессия ElasticNet, которые могут использоваться для наказания всех коэффициентов признаков, которые демонстрируют мультиколлинеарность, чтобы уменьшить влияние таких признаков.
Я думаю, что это будет полное переосмысление корреляции и ее значения в регрессионном анализе. Надеюсь, вы найдете это полезным!
Слово “коррелированный” является прилагательным и указывает на “слабую” ассоциацию между двумя переменными, т.е. не указывает на (значимую) причинную связь. Например, тест независимости хи-квадрат (Пирсон) для данного набора данных может показать высоко значимый хи-квадрат, указывающий на сильную ассоциацию, и тот же набор данных может показать низкий уровень R-квадрат Пирсона (представляющий причинно-следственную связь), который может быть незначительным. Ясно, что нам следует избегать недопонимания, что коэффициент корреляции является эквивалентом термина “коррелированный”. Эти два термина различаются. Например, высокая корреляция/ассоциация может возникать по причине того, что “третьи факторы/переменные” действуют на две переменные, рассматриваемые для вычисления “коэффициента корреляции”. Часть высокой корреляции может быть ложной. И, кроме того, часть корреляции может быть подавлена по причине третьих факторов, и мы получаем меньший коэффициент корреляции.
Ответ или решение
Как различать коррелирующие и некоррелирующие переменные и их значимость для регрессионного анализа
В области информационных технологий и анализа данных часто употребляют термины «коррелирующие» и «некоррелирующие» переменные. Чтобы правильно интерпретировать данные и результаты регрессионного анализа, абсолютно необходимо понимать, что эти термины не являются синонимами корреляционного коэффициента, но относятся к взаимосвязанным концепциям.
Определение корреляции
Корреляция является статистическим показателем, который иллюстрирует степень взаимосвязи между двумя или более переменными. Важно не путать корреляцию с причинно-следственной связью. Например, высокое значение корреляционного коэффициента указывает на наличие связи, но это не обязательно свидетельствует о том, что одна переменная влияет на другую. Таким образом, коррелирующие переменные могут быть вызваны сторонними факторами.
- Положительная корреляция: Когда одна переменная увеличивается, другая также увеличивается. Корреляционный коэффициент близок к +1.
- Отрицательная корреляция: При увеличении одной переменной другая уменьшается. Корреляционный коэффициент близок к -1.
- Отсутствие корреляции: Переменные не связаны между собой, что соответствует нулевому коэффициенту корреляции.
Значимость корреляции в регрессионном анализе
Корреляция играет критическую роль в регрессионном анализе, поскольку помогает отсеивать важные переменные. Оценка и выбор переменных могут значительно повлиять на индекс точности модели и ее интерпретацию. Высоко коррелирующие переменные, как положительные, так и отрицательные, обычно считаются значительными, поскольку они прямо влияют на результаты.
Пример
Рассмотрим пример с анализом факторов, влияющих на диагностику диабета. Уровень глюкозы в крови и заболеваемость диабетом демонстрируют положительную корреляцию. Это знание позволяет сфокусироваться на значимых переменных и делать обоснованные выводы при построении модели.
С другой стороны, переменные, такие как имя пациента или телефонный номер, не имеют никакой корреляции с целевой переменной и представляют собой шум, который только путает данные.
Проблема включения некоррелирующих переменных
Добавление переменных, которые имеют «некорреляционное» или «малокоррелированное» воздействие на целевую переменную, может привести к так называемому переобучению (overfitting) модели. Это означает, что модель может начать усваивать случайные шумовые данные, что усложняет интерпретацию и делает прогнозы менее надежными.
Параметры с малой или отсутствующей корреляцией стоит проверять на предмет их значимости, так как иногда они могут добавить дополнительную ценность, если их влияние окажется недооценённым.
Мультиколлинеарность
Важно также обсуждать мультиколлинеарность, возникающую, когда две или более переменные являются высоко коррелирующими между собой наряду с целевой переменной. Это затрудняет индентификацию влияния каждой переменной на целевую переменную, что может привести к искажению коэффициентов в модели. Например, переменные «вес в килограммах» и «вес в фунтах» могут давать схожие значения, что приводит к избыточности этих данных.
Для решения проблем с мультиколлинеарностью рекомендуется:
- Удалить избыточные переменные.
- Применить регуляризацию, например, Lasso или Ridge регрессию, что поможет контролировать влияние высоко коррелирующих переменных.
Заключение
Понимание различий между коррелирующими и некоррелирующими переменными является ключевым аспектом эффективного регрессионного анализа. Корреляция не должна ухудшать возможности оценки влияния переменных на модель. Каждый случай необходимо анализировать индивидуально, чтобы обеспечить максимально точные и обоснованные выводы, основанные на данных. Таким образом, правильное понимание и использование корреляции может стать залогом успешного анализа и предсказания.