Анализ прогнозов выживания вне выборки (CoxTimeVaryingFitter)

Question

Я пытаюсь предсказать вероятность выживания клиентов в течение следующих 24 месяцев. Я использую CoxTimeVaryingFitter из библиотеки lifelines.

У меня есть столбец, указывающий, как долго клиенту уже предоставляются услуги (длительность отношений). Это используется для получения моей базовой линии. Мой CoxTimeVaryingFitter (CTV) настроен и имеет коэффициенты. Коэффициенты используются для получения частичных рисков для клиента.

Могу ли я использовать следующий код для получения предсказаний вне выборки? Я осознаю предпосылки TimeVarying для вневыборочных данных, но в данный момент меня в основном интересует получение предсказаний вне выборки.

    # Получить базовую кумулятивную опасность из модели
    baseline_cumulative_hazard = ctv_model.baseline_cumulative_hazard_

    # Получить диапазон временных точек базовой опасности
    min_time = baseline_cumulative_hazard.index.min()
    max_time = baseline_cumulative_hazard.index.max()

    # Изменить индексацию базовой кумулятивной опасности, чтобы включить все временные точки (для интерполяции)
    full_index = pd.RangeIndex(start=int(min_time), stop=int(max_time) + 1)  # Создать диапазон временных точек
    baseline_cumulative_hazard = baseline_cumulative_hazard.reindex(full_index)

    # Интерполировать, чтобы заполнить пропуски между временными точками
    baseline_cumulative_hazard = baseline_cumulative_hazard.interpolate(method='linear')

    # Получить максимальное и минимальное доступное базовое время
    max_baseline_time = baseline_cumulative_hazard.index.max()
    min_baseline_time = baseline_cumulative_hazard.index.min()

    survival_results = {}

    for customer_id in extrapolated_data['customer_id'].unique():

        # Фильтровать данные по клиенту
        customer_data = extrapolated_data[extrapolated_data['klt_rle_nummer'] == customer_id]

        # Получить текущее `relation_duration` (отправная точка длительности отношений) для клиента
        relationship_duration = customer_data['end_date'].iloc[0]  # Предполагая, что все строки для клиента имеют одинаковое `relation_duration`

        # Если длительность отношений клиента превышает доступную базовую линию, использовать последнее доступное значение базовой линии
        if relationship_duration > max_baseline_time:
            baseline_hazard_from_relation_duration = baseline_cumulative_hazard.loc[max_baseline_time].iloc[0]

        # Если длительность отношений клиента меньше максимальной доступной базовой, использовать базовую линию из последнего доступного значения
        elif relationship_duration < min_baseline_time:
            baseline_hazard_from_relation_duration = baseline_cumulative_hazard.loc[min_baseline_time].iloc[0] 

        # Если длительность отношений клиента находится в пределах доступной базы, использовать базовую линию из `relation_duration` клиента
        else:
            baseline_hazard_from_relation_duration = baseline_cumulative_hazard.loc[relationship_duration].iloc[0]

        # Предсказать частичные риски для этого клиента
        partial_hazards = ctv_model.predict_partial_hazard(customer_data).values.flatten()

        # Рассчитать кумулятивную опасность как базовую кумулятивную опасность, умноженную на частичные риски
        cumulative_hazard = baseline_hazard_from_relation_duration * partial_hazards

        # Рассчитать вероятность выживания как S(t) = exp(-кумулятивная опасность)
        survival_prob = np.exp(-cumulative_hazard)

        # Сохранить результат в словарь с customer_id в качестве ключа
        survival_results[customer_id] = survival_prob

    # Преобразовать результаты в DataFrame с вероятностями выживания и оттока
    survival_df = pd.DataFrame(survival_results, index=time_horizon)

У меня есть цикл, в котором я получаю экстраполированные данные на месяц вперед, и я использую код выше для получения предсказания на месяц вперед. Это означает, что я экстраполирую 24 раза и использую функцию выше, чтобы получить 24 предсказания на 24 месяца. Правильно ли я рассуждаю и действительно ли кумулятивная опасность = базовая опасность из длительности отношений * частичные риски является правильным методом получения кумулятивной опасности?

Анализ прогнозов выживания вне выборки (CoxTimeVaryingFitter)

Вопрос или проблема

Ответ или решение

Основная структура вашего кода

Оценка правильности определения кумулятивного риска

Важные моменты для уточнения

Заключение