Логистическая регрессия Многоуровневые независимые переменные

Вопрос или проблема

Я пытаюсь изучить логистическую регрессию. Когда я сделал целевую переменную со всеми признаками, у меня был итог, показывающий p-значения, как обычно, но один из признаков имеет 60 уровней, другой признак имеет 13 уровней. Как я могу работать с такими данными, зная, что некоторые из этих уровней имеют значительно низкие p-значения, но другие – нет, так что я не могу полностью исключить признак. Например, ниже приведён образец итогов, прошу вашего совета.

    Коэффициенты:
                         Оценка Стандартная ошибка z значение Pr(>|z|)    
(Смешение)             3.262e+01  3.241e+00  10.063  < 2e-16 ***
Perc_PaidCash           1.932e+00  4.887e-02  39.541  < 2e-16 ***
Возраст в годах       -1.426e-02  1.363e-03 -10.463  < 2e-16 ***
Доход                 -1.256e-06  1.818e-07  -6.909 4.88e-12 ***
PremLate_3_6_Months1    9.494e-01  3.946e-02  24.063  < 2e-16 ***
PremLate_3_6_Months2    1.646e+00  5.760e-02  28.566  < 2e-16 ***
PremLate_3_6_Months3    1.796e+00  8.309e-02  21.612  < 2e-16 ***
PremLate_3_6_Months4    2.315e+00  1.339e-01  17.294  < 2e-16 ***
PremLate_3_6_Months5    2.238e+00  2.311e-01   9.688  < 2e-16 ***
PremLate_3_6_Months6    3.010e+00  3.298e-01   9.128  < 2e-16 ***
PremLate_3_6_Months7    1.404e+00  5.906e-01   2.378 0.017407 *  
PremLate_3_6_Months8    2.372e+00  6.701e-01   3.539 0.000401 ***
PremLate_3_6_Months9    1.509e+01  3.151e+02   0.048 0.961804    
PremLate_3_6_Months11   1.506e+01  4.414e+02   0.034 0.972778    
PremLate_3_6_Months13   1.507e+01  6.590e+02   0.023 0.981755    
PremLate_6_12_Late1     2.020e+00  5.056e-02  39.951  < 2e-16 ***
PremLate_6_12_Late2     2.489e+00  8.987e-02  27.699  < 2e-16 ***
PremLate_6_12_Late3     3.570e+00  1.623e-01  21.999  < 2e-16 ***
PremLate_6_12_Late4     3.792e+00  2.658e-01  14.269  < 2e-16 ***
PremLate_6_12_Late5     2.891e+00  4.179e-01   6.919 4.56e-12 ***
PremLate_6_12_Late6    -4.017e-01  6.057e-01  -0.663 0.507230    
PremLate_6_12_Late7     3.267e+00  5.779e-01   5.653 1.57e-08 ***
PremLate_6_12_Late8     1.574e+01  4.959e+02   0.032 0.974680    
PremLate_6_12_Late9     1.471e+01  3.415e+02   0.043 0.965643    
PremLate_6_12_Late10   -1.654e+01  1.455e+03  -0.011 0.990934    

Как только признак закодирован методом one-hot, он становится новым признаком “N”.

Вы можете исключить те, которые имеют низкую важность признака.

Ответ или решение

Логистическая регрессия с многократными независимыми переменными

Логистическая регрессия — это мощный инструмент для анализа бинарных зависимых переменных (например, "да/нет", "успех/неудача"). Однако когда ваши независимые переменные имеют высокие уровни категорий, как в вашем случае (60 уровней для одной переменной и 13 для другой), нужно проявлять особую осторожность при интерпретации результатов.

Ваша ситуация

Из вашего описания видно, что вы столкнулись с множественными уровнением категориями, и п-значения для различных уровней существенно отличаются. Это может говорить о том, что некоторые уровни имеют значительное влияние на зависимую переменную, в то время как другие не вносят вклад.

Пример из вашего вывода

В вашем выводе видно, что:

  • Для переменных PremLate_3_6_Months и PremLate_6_12_Late многие уровни имеют значительные значения, а другие, такие как PremLate_3_6_Months9, PremLate_3_6_Months11, и PremLate_6_12_Late6, имеют высокие п-значения, что говорит о том, что они не являются значимыми.

Подходы к решению проблемы

  1. Отбор признаков (Feature Selection):

    • Перед проведением логистической регрессии рекомендуется провести отбор значимых признаков. Используйте методику, подобную пошаговому отбора (stepwise selection), чтобы исключить ненужные уровни. Можно оставить только те уровни, которые имеют п-значения ниже установленного порога значимости, например, 0.05 или 0.01.
    • Применяйте методы, такие как Lasso (L1-регуляризация), которые могут помочь в удалении незначительных признаков.
  2. Изучение взаимодействий:

    • Рассмотрите возможность взаимодействия между уровнями категориальных переменных. Возможные взаимодействия могут создать новые значимые предсказатели.
  3. Группировка уровней:

    • Если уровни имеют содержание или смысловую близость, рассмотрите возможность группировки их в более крупные категории. Например, если некоторые уровни в PremLate_3_6_Months отображают схожие характеристики, их можно объединить.
  4. Оценка важности признаков:

    • Используйте методы оценки важности, такие как деревья решений или случайные леса (Random Forest), чтобы оценить, какие из независимых переменных действительно важны для вашей модели.
    • Важно также визуализировать важность признаков для лучшего понимания влияния каждого уровня.
  5. Проверка предположений:

    • Проверьте предположения логистической регрессии (линейность логитов, независимость наблюдений и отсутствие сильной многоколлинеарности).
  6. Кросс-валидация:

    • Применяйте кросс-валидацию для оценки стабильности вашей модели. Это поможет вам убедиться, что отобранные признаки корректно обобщаются на новых данных.

Заключение

Работа с многократными независимыми переменными в логистической регрессии требует внимательного подхода к отбору признаков и анализу их значимости. Обязательно учитывайте контекст данных и бизнес-цели перед принятием решений об исключении уровней признаков. При правильной интерпретации и отборе ваши результаты будут более значительными и точными, что позволит лучше понять основополагающие факторы, влияющие на вашу зависимую переменную.

Оцените материал
Добавить комментарий

Капча загружается...