Логистическая регрессия для прогнозирования

Question 1

Я хотел бы спросить о теоретическом подходе к использованию логистической регрессии для данных клиентов и, более конкретно, для прогнозирования оттока (в BigQuery и Python).

У меня есть данные о клиентах для интернет-магазина, и я хотел бы предсказать, уйдет ли клиент, исходя из некоторых характеристик. Я создал свой датасет и метку оттока (исходя из гипотезы, что если клиент не покупал ничего за последний год, то предполагается, что клиент ушел, так как мы имеем дело с неконтрактной обстановкой).

Я использую 3 года данных (2019-2021), которые включают ~3 млн клиентов и 43 признака, и, как я уже говорил, клиент считается ушедшим, если он не сделал заказ в 2021 году.

Я проверил распределение моей метки, которое ~сбалансировано.
Я проверил некоторые допущения логистической регрессии, такие как
мультиколлинеарность, влияние выбросов и т.д.
Я разделил данные на 80% обучающих данных, 10% данных для оценки, 10% данных для предсказания.
Я проверил качество модели, изучив метрики классификации (точность, полнота и т.д.)

Мой вопрос будет таков:

У нас есть прогнозы для 10% данных (т.е. вероятности того, что клиент уйдет). Можем ли мы получить вероятности для всех остальных клиентов, которые принадлежат к обучающему и оценочному датасету?

Другими словами, каковы будут следующие шаги после того, как мы обучили и проверили, что можем использовать модель, если ваша конечная цель – в итоге получить вероятности ваших клиентов на отток или на оставление?

Заранее спасибо за вашу помощь!

Question 2

У вас есть метод вашей обученной модели, который вернет вам предсказанную вероятность:

model.predict_proba(X)

Посмотрите ссылку для получения дополнительной информации и примеров.

Question 3

В целом я согласен с комментарием к другому ответу:

Предполагается, что оценка обучающих данных не нужна, это основная идея. Оценивать ее не имеет смысла.

Ваш метод обучения с учителем должен был иметь истинные метки, на которых можно учиться, и поэтому предсказания вашей модели на обучающем датасете не будут лучше, чем эти метки.

Но, что если ваши метки не обязательно являются всей правдой? В вашем случае вы установили какое-то определение/замену для “оттока”, но, возможно, модель узнала что-то немного более широкое, чем это определение, просто потому, что независимые переменные лучше находят это, чем ваша замена. Это растяжение, и вы не можете этого ожидать, но, возможно, наблюдение за заметными “неудачами” вашей модели по сравнению с целевой меткой (например, низкая вероятность оттока согласно вашей модели, но не покупал в течение 6 месяцев) может быть полезным. Или в других случаях, возможно, метки данных просто ошибочны в каком-то проценте случаев.

Чтобы разобраться, вам придется сделать некоторую ручную работу: углубиться в эти случаи и решить, верите ли вы своей метке или своей модели.

Вам следует избегать моделей, которые легко переобучаются, и/или рассмотреть возможность к-fold предсказаний, чтобы предсказания для каждой строки всегда делались моделью, не обученной на этой строке.

Логистическая регрессия для прогнозирования

Вопрос или проблема

Ответ или решение

Логистическая Регрессия для Прогнозирования Увольнений Клиентов

Введение

Подготовка Данных

Этапы Обучения Модели

Получение Вероятностей для Всех Клиентов

Анализ Результатов

Заключение