Вопрос или проблема
У меня есть набор данных с ~ 85 метками и целевой переменной (цена дома).
Я хочу исследовать корреляцию между метками и их влиянием на целевую переменную.
У меня есть некоторые признаки, которые являются числами, и другие, которые являются буквами и идут без определенного порядка, и поэтому я не могу закодировать их в числа.
такие как: Признак: Отопление. С уникальными значениями, такими как “Пол”, “ГазA”, “Грав”, “Стена”. Еще один пример – тип гаража. Уникальные значения, такие как “2Типа”, “Пристроенный”, “Встроенный”, “Отдельный”.
Как мне следует исследовать влияние этих признаков на цену продажи недвижимости?
Помните, что мы можем возводить корреляцию в квадрат, и квадрат коэффициента корреляции Пирсона между двумя переменными равен $R^2$ простой линейной регрессии наименьших квадратов одной переменной относительно другой.
С учетом этого, я думаю, что вы можете закодировать вашу категориальную переменную с помощью one-hot кодирования и выполнить линейную регрессию OLS на наборе переменных с one-hot кодированием. Затем вы можете рассмотреть $R^2$ из этой регрессии. Поскольку вы хотите посмотреть на корреляцию, возьмите квадратный корень. Знак больше не имеет смысла, поэтому вы можете взять как положительный, так и отрицательный квадратный корень.
Имейте в виду, что отбор кандидатов-признаков для корреляции с результатом является проблематичным, даже если это распространенная практика, так как это может исказить ваши выводы, заставить вас упустить важные эффекты переменных, которые имеют значение при наличии других переменных в модели, и завышать ваше чувство предсказательной способности (даже если вы используете скорректированный $R^2$ или стандартную оценку на отложенном наборе). Оба этих аспекта обсуждаются на статистическом Stack, Cross Validated.
Ответ или решение
Для анализа корреляции между неупорядоченными признаками и целевой переменной (ценой продажи дома) в вашем наборе данных, имея около 85 категориальных меток, можно использовать несколько методов. Рассмотрим их поэтапно.
Шаг 1: Преобразование категориальных признаков
Поскольку ваши признаки, такие как тип отопления ("Пол", "Газ", "Гравитационное", "Стена") и тип гаража ("2Типа", "Пристроенный", "Встроенный", "Отдельный"), являются категориальными и не имеют четкого порядка, необходимо применить технику кодирования. Один из самых распространённых подходов — это one-hot кодирование.
One-hot кодирование
One-hot кодирование преобразует каждую категорию в бинарную переменную. Например, для признака "Тип отопления" создание бинарных переменных будет выглядеть следующим образом:
Тип отопления | Пол | Газ | Гравитационное | Стена |
---|---|---|---|---|
Пол | 1 | 0 | 0 | 0 |
Газ | 0 | 1 | 0 | 0 |
Гравитационное | 0 | 0 | 1 | 0 |
Стена | 0 | 0 | 0 | 1 |
Таким образом, каждая категория представляется отдельной бинарной переменной.
Шаг 2: Построение модели
После преобразования категориальных признаков в бинарные, следующему шагу можно считать использование модели линейной регрессии. Здесь мы ищем зависимость переменной "Цена продажи" от всех закодированных признаков.
Применяя метод наименьших квадратов (OLS), вы подберёте коэффициенты для каждой бинарной переменной, что позволит вам оценить их влияние на цену.
Шаг 3: Оценка корреляции
По завершении процесса регрессии, вы можете вычислить коэффициент детерминации (R²) для оценки качества модели. Чтобы получить корреляцию между отдельными признаками и целевой переменной, выполните следующие действия:
- Запустите регрессионный анализ на свежеиспечённых бинарных переменных.
- Извлеките значение R² из результата.
Коэффициент корреляции Пирсона можно получить, взяв квадратный корень из R². Обратите внимание, что следовательно, знак будет несущественным, и вы можете рассмотреть только его абсолютное значение.
Шаг 4: Интуитивное понимание и интерпретация
Чтобы лучше понять влияние каждой переменной, интерпретируйте коэффициенты модели. Положительные коэффициенты указывают на то, что при увеличении соответствующего признака происходит увеличение цены, тогда как отрицательные — на снижение.
Примечания
Следует помнить, что исследование кандидатов в признаки на основе корреляции с целевыми переменными может быть проблематичным. Это может привести к "раздутому" представлению о предсказательной способности модели и может упустить важные связи между переменными. Рекомендуется проводить анализ в контексте модели, применяя методы, такие как перекрестная проверка (cross-validation), чтобы устранить возможные смещения.
Заключение
Подход, описанный выше, позволит вам систематически и последовательно проверить корреляцию между категориальными признаками и целевой переменной. Благодаря one-hot кодированию, дальнейшему применению метода OLS и интерпретации полученных результатов, вы сможете лучше понять факторы, влияющие на цену продажи вашего объекта недвижимости.