Вопрос или проблема
Я начинаю этот пост с того, что не знаю, соответствует ли он правилам сообщества, поэтому прошу прощения за любые недоразумения.
Я изучал теорию статистического обучения в университете. В частности, обучение PAC, размерность VC, равномерная сходимость и т.д. Недавно я посмотрел это выступление с Вапником, в котором он утверждает, что глубокое обучение, по сути, является “бла-бла интерпретацией” и также утверждает, что “каждую задачу можно решить с помощью теории статистического обучения”.
Я очень смущен этим. Я не вижу, как я могу применить теорию статистического обучения к реальным задачам.
Допустим, я сталкиваюсь с новым набором данных с четкой задачей бинарной классификации, с множеством признаков и большим объемом обучающих данных. Как мне, например, проверить, является ли класс гипотез H обучаемым по PAC, или, другими словами, имеет ли он конечную VC-измеримость? Не воспринимайте мой пример слишком буквально, я просто хотел бы знать, может ли кто-то направить меня на статью, блог или какой-то другой ответ, который четко показывает, как мы можем использовать эти теоремы и результаты в реальном анализе.
Спасибо.
-
развитие основного исчисления, необходимого как для формулирования задач, так и для численных методов нахождения минимума функции
-
теоретическое развитие теории обучения, такой как VC-теория, так же, как она используется в статистике для таких вещей, как доказательство центральной предельной теоремы
Я не видел видео на youtube, которое вы опубликовали, но если вы прочитаете “Понимание глубокого обучения требует переосмысления обобщения” (Чжан, Бенгио и др., 2016), вы увидите очень четкий анализ того, почему это утверждение Вапника является преувеличенным. В статистическом обучении компромисс между комплексностью и обобщением приводит нас к псевдопарадоксу: Модели с большим количеством параметров, чем данных на входе, не должны уметь обобщать. Тем не менее, несмотря на теорию, на самом деле, они это делают. В общем, VC даст вам пустые границы для DNN.
Недавно Дзюгайт и Рой в работе “Вычисление не пустых границ обобщения для глубоких (стохастических) нейронных сетей” смогли дать непустые границы для глубокого обучения, но они полагались на характеристики решений, найденных с помощью SGD.
Я рекомендую это видео (https://www.youtube.com/watch?v=dHUH0hmKvs8) с Каролиной Дзюгайт, объясняющей их усилия, она очень хорошо объясняет.
Ответ или решение
Статистическая теория обучения (СТО) представляет собой мощный инструмент, который позволяет анализировать эффективность алгоритмов машинного обучения и их способность к обобщению. Использование основных понятий и теорем СТО в реальных задачах, таких как бинарная классификация, требует структурированного подхода. В этом ответе я постараюсь дать детальный анализ применения СТО в практических задачах.
1. Понимание задач
Для начала важно четко сформулировать задачу. Рассмотрим, что у вас есть новый набор данных с множеством признаков и необходимостью выполнить бинарную классификацию. Задачи можно разделить на несколько этапов:
-
Предобработка данных: необходимо провести очистку, нормализацию и, возможно, отбор признаков. На этом этапе важно также визуализировать данные, чтобы понять их структуру и распределение.
-
Определение гипотезного пространства H: выбор модели для обучения. Это может быть линейная модель, решающее дерево или нейронная сеть. Важно понимать, что различия в моделях выражаются в их сложности, что будет важно для дальнейшего анализа.
2. Проверка условий PAC-обучаемости
Для проверки того, является ли класс гипотез H PAC-обучаемым:
-
Определите VC размерность: VC (Vapnik-Chervonenkis) размерность помогает оценить сложность класса гипотез. Чем ниже VC размерность, тем меньше шанс переобучения. Для конкретной модели проверьте публикации или соответствующую литературу, чтобы выявить её VC размерность. Например, для линейных моделей VC размерность часто равна размерности пространства признаков.
-
Анализ данных: Сравните количество образцов в вашем наборе данных с VC размерностью. Если количество данных значительно превышает VC размерность, это указывает на возможность успешного обучения с хорошим уровнем обобщения.
-
Проведение экспериментов: Используйте кросс-валидацию для оценки производительности модели. Такой подход поможет проверить, как хорошо модель обобщается на новых данных.
3. Использование теоремы об униформной сходимости
Теорема об униформной сходимости предполагает, что если функции из класса H достаточно "простые", то они будут достаточно близки друг к другу. В контексте реальных задач это означает:
-
Выбор оценочной функции: Ваша гипотеза H должна быть оценена в зависимости от производительности на валидационном наборе данных. Определите критерий (например, точность, F1-мера) и проверьте, как оценка модели на обучающих данных соотносится с валидационными данных.
-
Анализ эффекта обнаруженного переобучения: Если вы настроите модель, наблюдая за производительностью на валидационном наборе, и увидите, что результаты ухудшаются, это может свидетельствовать о том, что модель начинает переобучаться на обучающем наборе.
4. Глубокое обучение и СТО
Как упоминается в обсуждении, глубокое обучение ставит под сомнение некоторые традиционные положения статистической теории. Однако, важно помнить, что:
-
Изучение границ обобщения для глубоких нейронных сетей часто требует применения методов и подходов, специфичных для SGD (Стохастический градиентный спуск).
-
Дзиугайт и Рой в своих работах открывают новые горизонты для понимания обобщающей способности глубоких сетей, что напоминает вам о необходимости оставаться в курсе последних исследований.
Заключение
Статистическая теория обучения может служить основой для анализа моделей машинного обучения, особенно в задачах бинарной классификации. Основываясь на VC размерности, униформной сходимости и современных исследованиях в области глубокого обучения, вы сможете более эффективно применять теорию к практическим задачам. Рекомендуется следить за новыми публикациями и исследованиями, чтобы оставаться в курсе последних достижений и применений СТО.
Для более глубокого изучения вы можете ознакомиться с реформулированием теории и узкоспециализированными источниками, такими как статьи, связанные с VC теорией и современными работами по глубокому обучению, как упоминалось выше.