Оптимизация обрезки во время кросс-валидции, имеет ли это смысл?

Question 1

В настоящее время я пытаюсь построить модель с использованием CatBoost. Для настройки параметров я использую optuna и кросс-валидацию, а также подрезаю испытания, проверяя промежуточные оценки кросс-валидации. Вот минимальный пример:

def objective(trial):
    param = {
        "iterations": trial.suggest_int("iterations", 50, 5000),
        "boosting_type": trial.suggest_categorical(
            "boosting_type", ["Ordered", "Plain"]
        ),
        "model_shrink_mode": trial.suggest_categorical(
            "model_shrink_mode", ["Constant", "Decreasing"]
        ),
    }
    scores = []
    skf = StratifiedKFold(n_splits=nfolds)
    for k_step, (train_index, test_index) in enumerate(skf.split(X, y)):
        X_Ktrain, y_Ktrain = X.iloc[train_index], y.iloc[train_index]
        X_Kval, y_Kval = X.iloc[test_index], y.iloc[test_index]
        clf = CatBoostClassifier(**param, cat_features=X_Ktrain.select_dtype(exclude="number").columns)
        clf.fit(x_Ktrain, y_Ktrain)
        score = clf.score(X_Kval, y_Kval)
        scores.append(score)
        trial.report(score, step)

        # Обработка подрезки на основе промежуточного значения.
        if trial.should_prune():
            raise optuna.TrialPruned()
    return sum(scores) / len(scores)

Мой вопрос возникает из-за того, что подрезка optuna предназначена для работы с алгоритмами, которые могут обучаться непрерывно, поэтому я не уверен, что такой способ использования имеет смысл.

Question 2

Попытка реализовать механизм кросс-валидации с Optuna на самом деле немного болезненна, так как Optuna не поддерживает интеграцию кросс-валидации с подрезкой. Если попытаться использовать ваш минимальный пример, это приведет к предупреждению, подобному этому:

UserWarning: The reported value is ignored because this `step` 21 is already reported

Причина этого заключается в том, что при выполнении разбиения кросс-валидации с N эпохами шаг может быть встречен максимум $k$ раз. Например, номер шага $1$ может быть:

trial.report(score, step)

сообщен до $3$ раз. Это вызывает конфликты во внутреннем оптимизаторе Optuna, который видит один и тот же шаг дважды. Чтобы избежать этого, можно рассмотреть возможность подрезки только во время первого разбиения кросс-валидации, что-то подобное:

if split_idx == 0:
    trial.report(avg_val_loss, (split_idx * N_EPOCHS) + epoch + 1)
    if trial.should_prune():
        raise optuna.TrialPruned()

Позволять подрезчику работать на нескольких разбиениях также проблематично, так как после завершения первого разбиения и перед началом второго разбиения может происходить значительный скачок в проверочных потерях из-за нового разбиения, однако optuna может принять этот скачок за переобучение и неправильно остановить процесс обучения.

Более того, это решение проверять подрезку исключительно во время первого разбиения является довольно разумным, поскольку если определенная конфигурация гиперпараметров полностью портит обучение и проверку в первом разбиении, скорее всего, последующие разбиения также столкнутся с подобным поведением, так как разбиения, как правило, довольно тесно связаны друг с другом и представляют собой друг друга.

Некоторую дополнительную информацию об этом можно найти здесь и здесь.

Оптимизация обрезки во время кросс-валидции, имеет ли это смысл?

Вопрос или проблема

Ответ или решение

Что такое оpтимизация гиперпараметров?

Зачем использовать обрезку в Optuna?

Проблема применения обрезки в кросс-валидации

Решение через запись промежуточных результатов

Возможность ошибок в интерпретации

Заключение

Полезные ссылки