Вопрос или проблема
Я пытаюсь изучить логистическую регрессию. Когда я сделал целевую переменную со всеми признаками, у меня был итог, показывающий p-значения, как обычно, но один из признаков имеет 60 уровней, другой признак имеет 13 уровней. Как я могу работать с такими данными, зная, что некоторые из этих уровней имеют значительно низкие p-значения, но другие – нет, так что я не могу полностью исключить признак. Например, ниже приведён образец итогов, прошу вашего совета.
Коэффициенты:
Оценка Стандартная ошибка z значение Pr(>|z|)
(Смешение) 3.262e+01 3.241e+00 10.063 < 2e-16 ***
Perc_PaidCash 1.932e+00 4.887e-02 39.541 < 2e-16 ***
Возраст в годах -1.426e-02 1.363e-03 -10.463 < 2e-16 ***
Доход -1.256e-06 1.818e-07 -6.909 4.88e-12 ***
PremLate_3_6_Months1 9.494e-01 3.946e-02 24.063 < 2e-16 ***
PremLate_3_6_Months2 1.646e+00 5.760e-02 28.566 < 2e-16 ***
PremLate_3_6_Months3 1.796e+00 8.309e-02 21.612 < 2e-16 ***
PremLate_3_6_Months4 2.315e+00 1.339e-01 17.294 < 2e-16 ***
PremLate_3_6_Months5 2.238e+00 2.311e-01 9.688 < 2e-16 ***
PremLate_3_6_Months6 3.010e+00 3.298e-01 9.128 < 2e-16 ***
PremLate_3_6_Months7 1.404e+00 5.906e-01 2.378 0.017407 *
PremLate_3_6_Months8 2.372e+00 6.701e-01 3.539 0.000401 ***
PremLate_3_6_Months9 1.509e+01 3.151e+02 0.048 0.961804
PremLate_3_6_Months11 1.506e+01 4.414e+02 0.034 0.972778
PremLate_3_6_Months13 1.507e+01 6.590e+02 0.023 0.981755
PremLate_6_12_Late1 2.020e+00 5.056e-02 39.951 < 2e-16 ***
PremLate_6_12_Late2 2.489e+00 8.987e-02 27.699 < 2e-16 ***
PremLate_6_12_Late3 3.570e+00 1.623e-01 21.999 < 2e-16 ***
PremLate_6_12_Late4 3.792e+00 2.658e-01 14.269 < 2e-16 ***
PremLate_6_12_Late5 2.891e+00 4.179e-01 6.919 4.56e-12 ***
PremLate_6_12_Late6 -4.017e-01 6.057e-01 -0.663 0.507230
PremLate_6_12_Late7 3.267e+00 5.779e-01 5.653 1.57e-08 ***
PremLate_6_12_Late8 1.574e+01 4.959e+02 0.032 0.974680
PremLate_6_12_Late9 1.471e+01 3.415e+02 0.043 0.965643
PremLate_6_12_Late10 -1.654e+01 1.455e+03 -0.011 0.990934
Как только признак закодирован методом one-hot, он становится новым признаком “N”.
Вы можете исключить те, которые имеют низкую важность признака.
Ответ или решение
Логистическая регрессия с многократными независимыми переменными
Логистическая регрессия — это мощный инструмент для анализа бинарных зависимых переменных (например, "да/нет", "успех/неудача"). Однако когда ваши независимые переменные имеют высокие уровни категорий, как в вашем случае (60 уровней для одной переменной и 13 для другой), нужно проявлять особую осторожность при интерпретации результатов.
Ваша ситуация
Из вашего описания видно, что вы столкнулись с множественными уровнением категориями, и п-значения для различных уровней существенно отличаются. Это может говорить о том, что некоторые уровни имеют значительное влияние на зависимую переменную, в то время как другие не вносят вклад.
Пример из вашего вывода
В вашем выводе видно, что:
- Для переменных
PremLate_3_6_Months
иPremLate_6_12_Late
многие уровни имеют значительные значения, а другие, такие какPremLate_3_6_Months9
,PremLate_3_6_Months11
, иPremLate_6_12_Late6
, имеют высокие п-значения, что говорит о том, что они не являются значимыми.
Подходы к решению проблемы
-
Отбор признаков (Feature Selection):
- Перед проведением логистической регрессии рекомендуется провести отбор значимых признаков. Используйте методику, подобную пошаговому отбора (stepwise selection), чтобы исключить ненужные уровни. Можно оставить только те уровни, которые имеют п-значения ниже установленного порога значимости, например, 0.05 или 0.01.
- Применяйте методы, такие как Lasso (L1-регуляризация), которые могут помочь в удалении незначительных признаков.
-
Изучение взаимодействий:
- Рассмотрите возможность взаимодействия между уровнями категориальных переменных. Возможные взаимодействия могут создать новые значимые предсказатели.
-
Группировка уровней:
- Если уровни имеют содержание или смысловую близость, рассмотрите возможность группировки их в более крупные категории. Например, если некоторые уровни в
PremLate_3_6_Months
отображают схожие характеристики, их можно объединить.
- Если уровни имеют содержание или смысловую близость, рассмотрите возможность группировки их в более крупные категории. Например, если некоторые уровни в
-
Оценка важности признаков:
- Используйте методы оценки важности, такие как деревья решений или случайные леса (Random Forest), чтобы оценить, какие из независимых переменных действительно важны для вашей модели.
- Важно также визуализировать важность признаков для лучшего понимания влияния каждого уровня.
-
Проверка предположений:
- Проверьте предположения логистической регрессии (линейность логитов, независимость наблюдений и отсутствие сильной многоколлинеарности).
-
Кросс-валидация:
- Применяйте кросс-валидацию для оценки стабильности вашей модели. Это поможет вам убедиться, что отобранные признаки корректно обобщаются на новых данных.
Заключение
Работа с многократными независимыми переменными в логистической регрессии требует внимательного подхода к отбору признаков и анализу их значимости. Обязательно учитывайте контекст данных и бизнес-цели перед принятием решений об исключении уровней признаков. При правильной интерпретации и отборе ваши результаты будут более значительными и точными, что позволит лучше понять основополагающие факторы, влияющие на вашу зависимую переменную.