Что означает график стандартного отклонения вокруг моей кривой обучения?

Содержание

Вопрос или проблема
Ответ или решение
1. Какие данные показаны на графике?
2. Что означает стандартное отклонение?
3. Почему стандартное отклонение высоко в самом начале?
4. Что происходит с обучением по мере увеличения объема данных?
5. Заключение и рекомендации

Вопрос или проблема

Я нарисовал кривую обучения ниже. В верхней части моего тренировочного результата есть толстая красная полоса. Почему она так высока в начале?

Ниже представлен фрагмент использованного кода:

train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes, scoring= 'neg_brier_score')
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    plt.grid()

    plt.fill_between(train_sizes, train_scores_mean - train_scores_std,train_scores_mean + train_scores_std, alpha=0.1,
                     color="r")
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                     # + test_scores_std, alpha=0.1, color="g")
    plt.plot(train_sizes, train_scores_mean, 'o-', color="r",
             label="Тренировочный Brier score")
    plt.plot(train_sizes, test_scores_mean, 'o-', color="g",
             label="Brier score кросс-валидации")

У меня есть только предположение, но я подозреваю, что это может быть просто из-за случайной инициализации. Это означало бы, что после нескольких обучающих образцов модели все еще будут сильно различаться. После 400k обучающих образцов модели все сходятся к одному и тому же пути обучения. Конечно, я могу и ошибаться!

Ответ или решение

Стандартное отклонение, представленное в виде толстой красной полосы вокруг вашего графика обучения, является важным аспектом анализа производительности вашей модели. Чтобы расшифровать значение этой полосы, стоит рассмотреть несколько ключевых аспектов.

1. Какие данные показаны на графике?

На графике показаны кривые обучения для вашего алгоритма, измеренные по критерию, основанному на отрицательной оценке Brier. Основные линии графика представляют собой средние значения для обучающих и тестовых наборов данных в зависимости от их размера. Красная линия обозначает средний обучающий балл, в то время как зеленая линия — средний тестовый балл.

2. Что означает стандартное отклонение?

Стандартное отклонение (обозначенная красной полосой) представляет собой меру разброса или вариабельности ваших обучающих оценок. Когда эта полоса широкая, это говорит о том, что ваши оценки имеют значительное различие.

3. Почему стандартное отклонение высоко в самом начале?

Ваше предположение о том, что высокое стандартное отклонение в начале может быть связано с случайной инициализацией модели, вполне обосновано. На начальных этапах обучения, особенно с малым объемом данных, модель может быть более подвержена колебаниям. Это противоречие в производительности может быть связано с тем, что:

Недостаточный объем данных: С меньшим количеством обучающих примеров модель может не успеть уловить основные паттерны в данных, что приводит к значительному различию в результатах между итерациями.
Случайная инициализация: Когда модель только начинает обучение, начальные условия (например, веса в нейронной сети) могут привести к значительным вариациям в результатах.
Сложность модели: При использовании сложных моделей, таких как глубокие нейронные сети, небольшие объемы данных могут вести к большим колебаниям, поскольку модель переобучается на определенных образцах.

4. Что происходит с обучением по мере увеличения объема данных?

Как вы верно заметили, с увеличением объема данных (например, после 400k примеров), кривые начинают показывать меньшие колебания. Это указывает на то, что модель начинает стабилизироваться и обучаться более последовательно, поскольку у нее теперь есть больше информации для обобщения, что также отражается в уменьшении стандартного отклонения.

5. Заключение и рекомендации

Важно учитывать, что большой разброс в начальных оценках может быть нормальным явлением при работе с малым объемом данных. Однако, если возможны значительные колебания даже на более поздних этапах, это может указывать на необходимость повторной настройки параметров модели или выбора другой архитектуры.

Рекомендуется далее экспериментировать с изменением объема данных и параметров модели, чтобы понять, как они влияют на стабильность производительности и ее обобщаемость. Опирайтесь на визуализацию, чтобы лучше отследить изменение стандартного отклонения и принимать обоснованные решения на каждом этапе обучения.