Вложенная кросс-валидация и доверительные интервалы

Question

Надеюсь, кто-то сможет мне помочь разобраться с этим. Я наткнулся на множество различных ресурсов о вложенной кросс-валидации, но, похоже, я запутался в том, как выбрать модель и правильно построить доверительные интервалы для процесса обучения.

Я пытаюсь обучить бинарный классификатор машинного обучения. У меня есть небольшой набор данных, чуть больше 220 образцов, 58 из которых имеют мой интересующий результат. В идеале мне также хотелось бы отразить доверительный интервал на моем обучении, чтобы помочь построить более надежную оценку производительности моей модели перед ее оценкой на отложенном тестовом наборе.

В настоящее время я разделил свои данные на обучающую и тестовую выборки (80/20) и применяю вложенную кросс-валидацию на обучающей выборке. Внешний и внутренний циклы имеют по 5 и 3 фолда соответственно. Мой подход к вложенной кросс-валидации заключается в том, чтобы убедиться, что я не оптимистично искажает результаты обучения, используя обычный стандартный подход к 5-фолдовой кросс-валидации при подборе/выборе модели, особенно учитывая мой маленький размер выборки, который, как я подозреваю, сильно чувствителен к случайным делениям моих данных (58 случаев гетерогенны между собой – это сложная задача предсказания).

Меня интересует, может ли кто-то прокомментировать, правильно ли я строю свою цепочку вложенной кросс-валидации и правильна ли моя стратегия бутстрепирования доверительных интервалов для оценки производительности моих моделей? Дополнительно, моя цепочка также выполняет выбор признаков, что может привести к тому, что каждая из полученных «лучших» моделей использует разные признаки. Все еще ли уместно усреднять результаты и бутстрепировать доверительные интервалы?

В настоящее время мой код выглядит примерно так:

Подготовка вспомогательных функций

cv_tune = StratifiedKFold(n_splits=5, shuffle=True, random_state=1839)

scorer = {'AUC': 'roc_auc', 
          'Precision': make_scorer(precision_score, zero_division = 0), 
          'Recall': 'recall',
          'Accuracy': 'accuracy',
          'log-loss': 'neg_log_loss',
          'F1': make_scorer(f1_score, average="binary")}

# это позволяет установить начальное значение
def mutual_info_seed(X, y):
    return mutual_info_classif(X, y, random_state=0)
#SelectKBest(score_func=mutual_info_seed)

# вызов smote для увеличения выборки
smt = SMOTE(random_state=42)

# Создать трансформаторы для каждого типа признаков
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Объединить трансформаторы в ColumnTransformer
step_impute_scale = ('scaler', ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, predictors_to_scale)
    ],
    remainder="passthrough"  # это оставляет другие столбцы без изменений
))

# инициировать импертуратор для пропущенных значений
simple_imputer = SimpleImputer(strategy='median')

def bootstrap_ci(scores, n_bootstrap=1000, ci=95):
    """Вычислить бутстрепные доверительные интервалы."""
    bootstrapped_scores = []
    n = len(scores)
    for _ in range(n_bootstrap):
        resample = np.random.choice(scores, size=n, replace=True)
        bootstrapped_scores.append(np.mean(resample))
    lower = np.percentile(bootstrapped_scores, (100 - ci) / 2)
    upper = np.percentile(bootstrapped_scores, 100 - (100 - ci) / 2)
    return np.mean(scores), lower, upper

Для запуска модели

# создаем rf
rf = RandomForestClassifier(random_state=1725)

# настроить конвейер для предобработки данных, выбора признаков и smote
pipeline = Pipeline(steps=[
    ('transform_columns', ColumnTransformer([('imputer', simple_imputer, predictors_to_scale)],
                                                               remainder="passthrough")),
    ('variance_selection', VarianceThreshold()),
    ('selectk', SelectKBest(score_func = mutual_info_seed)),
    ('smote', smt),
    ('classifier', rf)
])

# Определить распределение параметров
param_distributions = {
    'classifier__n_estimators': randint(100, 1001),        # Случайный выбор n_estimators от 100 до 1000
    'classifier__max_depth': randint(2, 10),              # Случайный выбор max_depth от 2 до 9
    'classifier__min_samples_split': randint(2, 6),       # Случайный выбор min_samples_split от 2 до 5
    'classifier__min_samples_leaf': randint(2, 6),        # Случайный выбор min_samples_leaf от 2 до 5
    'classifier__criterion': ['gini', 'entropy'],         # Случайный выбор между gini и entropy
    'smote__k_neighbors': randint(1, 10),                  # Случайный выбор k_neighbors для SMOTE от 1 до 5
    'selectk__k': randint(5, 15),                          # Случайный выбор k для выбора признаков от 5 до 15
    'variance_selection__threshold': uniform(loc=0, scale=0.3),
}

# Внешняя кросс-валидация
outer_cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=1839)

# Для хранения оценок для каждой метрики
outer_scores = {metric: [] for metric in scorer.keys()}

# Выполнить вложенную кросс-валидация
for train_idx, test_idx in outer_cv.split(X_mod, y):
    X_train, X_test = X_mod.iloc[train_idx], X_mod.iloc[test_idx]
    y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]
    
    search = RandomizedSearchCV(pipeline, param_distributions, scoring=scorer, cv=3, n_iter = 250, n_jobs=-1, error_score="raise", 
                           refit="F1", random_state=0)
    search.fit(X_train, y_train)

    # Оценка на внешнем тестовом наборе для всех метрик
    y_pred = search.predict(X_test)
    y_prob = search.predict_proba(X_test)[:, 1] if hasattr(search, "predict_proba") else None

    for metric, scorer_fn in scorer.items():
        if metric == "AUC" and y_prob is not None:
            score = roc_auc_score(y_test, y_prob)
        elif metric == "log-loss" and y_prob is not None:
            score = -log_loss(y_test, y_prob)
        elif callable(scorer_fn):
            score = scorer_fn._score_func(y_test, y_pred)
        else:
            score = accuracy_score(y_test, y_pred)  # Резервный вариант по умолчанию
        outer_scores[metric].append(score)

# Вычислить среднее и бутстрепные доверительные интервалы для каждой метрики
results_summary = {}
for metric, scores in outer_scores.items():
    mean_score, ci_lower, ci_upper = bootstrap_ci(scores)
    results_summary[metric] = {
        'mean': mean_score,
        '95% CI': (ci_lower, ci_upper)
    }

Вложенная кросс-валидация и доверительные интервалы

Вопрос или проблема

Подготовка вспомогательных функций

Для запуска модели

Ответ или решение

Введение в Вложенную Кросс-Валидацию и Доверительные Интервалы

Конструкция Вложенной Кросс-Валидации

Подход:

Конструирование Доверительных Интервалов

Среднее значение и Бутстрэп для Разных Метрик

Заключение