Вопрос или проблема
Я анализирую данные для компании на основе подписки. То есть они продают услугу в обмен на ежемесячную оплату. Я хотел бы провести анализ и оценить среднюю продолжительность жизни (в месяцах) клиента. У меня есть примерно 6 лет данных, включая дату регистрации и дату отмены. N довольно велик: 70k, 80k, 100k, 115k, 135k, 161k зарегистрированных клиентов за 6 лет соответственно.
Я видел статьи, такие как эта, которые описывают, как рассчитать среднюю продолжительность жизни, используя формулу $$\frac{1}{\text{churn rate}} = \frac{1}{\text{1-retention rate}}.$$
Я не совсем понимаю, почему эта формула работает, но мое понимание заключается в том, что это вероятностный расчет. Кто-то из моей команды рассчитал среднюю продолжительность жизни в 71 месяц, используя эту методологию.
Из любопытства я хотел сравнить это с нашим опытом, поэтому я вычислил следующее в R
data %>%
filter(Cancelled == "TRUE") %>% #--игнорировать активные полисы
mutate(duration = 12*(as.yearmon(CancelRequestDate) - as.yearmon(EnrollDate))) %>%
pull(duration) %>%
mean()
> dataAvgPetMo
24.52419
Эти два числа очень разные. Может ли кто-нибудь объяснить, почему так, и, возможно, предложить некоторые руководства по интерпретации или уточнению этого исследования, чтобы получить разумную оценку средней продолжительности жизни.
новичок в этом сообществе. правки и советы приветствуются 🙂
Средняя продолжительность жизни рассчитывается просто, используя формулу среднего из геометрического распределения. Если вероятность оттока в любом месяце (или просто процент оттока за месяц) равна 0.2, то ожидаемая продолжительность жизни клиента составляет 1/0.2 = 5 месяцев.
Здесь вы фильтруете клиентов, которые не оттекли, на первом этапе (filter(Cancelled == "TRUE")
), и поэтому получаете среднюю продолжительность жизни оттекших клиентов в вашей выборке, а не среднюю продолжительность жизни любого клиента.
Ответ или решение
Теория
Определение ожидаемого времени жизни клиента в контексте подписки является важным аналитическим элементом для любой компании, работающей по модели подписки. Это значение помогает предсказать выручку и планировать бизнес-стратегии. Два популярных метода для оценки ожидаемого времени жизни включают:
-
Формула оттока (Churn Formula): Среднее ожидаемое время жизни клиента может быть рассчитано как обратная величина оттока. Формула выглядит следующим образом:
[
\text{Ожидаемое время жизни} = \frac{1}{\text{Коэффициент оттока}}
]Здесь коэффициент оттока определяется как доля клиентов, которые отменяют подписку в течение определенного периода времени. Если коэффициент удержания клиентов известен, используется преобразование:
[
\text{Ожидаемое время жизни} = \frac{1}{1 – \text{Коэффициент удержания}}
]Эта формула основана на геометрическом распределении, которое моделирует число попыток до первого успеха (или в данном случае — первого оттока).
-
Эмпирические данные: Используя фактические данные о датах начала и отмены подписок, можно вычислить среднее количество времени (месяцев), которое клиенты остаются подписанными. Этот метод обычно более точный, если доступны полные данные, поскольку он учитывает фактические временные рамки и поведение клиентов.
Пример
Допустим, у нас есть данные за шесть лет о подписках с количеством клиентов, как в вашем примере, и доступна информация о датах вступления и отмене подписок. При использовании формулы оттока, если ваш годовой коэффициент оттока составляет 0,2, это означает, что в среднем клиент останется подписан на 1/0,2 = 5 лет.
Однако, когда вы смотрите на свои фактические данные и вычисляете среднее время жизни на основе отмененных подписок, вы получаете другое значение, например, 24 месяца (2 года).
Применение
Почему результаты различаются?
Когда вы рассчитываете среднее время жизни исключительно по клиентам, которые отменили подписку, вы получаете неполную картину. Это потому, что вы исключаете тех клиентов, которые уже остаются лояльными, из среднего времени жизни. Таким образом, расчеты только для отмененных подписок занижают фактическую среднюю продолжительность времени жизни.
Как интерпретировать результаты?
- Формула оттока: Это предположение может переоценивать срок службы, учитывая возможное снижение удержания при длительных временных интервалах. Подходит для краткосрочных прогнозов.
- Эмпирический подход: Он предоставляет достоверное среднее с учетом текущих данных, но может потребовать корректировок с учетом неизвестного числа будущих отмен.
Как улучшить анализ?
- Разделите клиентов на когорты и исследуйте их поведение с течением времени. Так можно понять, как коэффициенты оттока изменяются.
- Используйте кластерный анализ для создания моделей различного клиентского поведения.
- Включите активных клиентов в оценки с использованием техники цензирования для учета текущего времени жизни.
- Примените прогнозные методы, такие как модели выживания, чтобы предсказать будущее поведение клиентов.
И, наконец, целесообразно регулярно пересматривать подходы к расчёту времени жизни клиентов, чтобы адаптироваться к изменениям в поведении пользователей и других динамических факторов, влияющих на рынок и вашу компанию.