Вопрос или проблема
В знаменитой статье Оценка масштабируемого предельного правдоподобия для выбора модели в глубокое обучение Иммер и др. Иммер использует приближенную лапласовскую оценку для оценки предельного логарифмического правдоподобия, которое используется для выбора модели среди различных архитектур и размеров нейронных сетей, следуя духу Практическая байесовская структура для сетей обратного распространения Макака. Однако одно заметное отличие заключается в том, что Макака применяет множитель перестановки, так как он правильно утверждает, что:
И если сеть имеет симметрию при перестановке своих параметров, то мы знаем, что $M(w)$ [(логарифм постериора)] должен разделять эту симметрию, так что каждая отдельная минимум принадлежит семье симметричных минимумов $M$. Например, если в одном слое есть $H$ скрытых единиц, то каждый недегенеративный минимум находится в семье размером
$g = H! 2^H$.
Вопрос в том, почему Иммер исключает этот множитель перестановки? Я бы подумал, что это имеет значение, особенно при сравнении моделей с различными архитектурами и размерами?
Ответ или решение
Переменный множитель для маргинального правдоподобия
В работе "Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning" Имер и его коллеги используют приближенную Лапласовскую аппроксимацию для оценки маргинального логарифмического правдоподобия, что играет критическую роль в выборке моделей с различной архитектурой и размерами нейронных сетей. Эта работа вызывает интерес в связи с тем, что она сопоставима с исследованием Маккея, который также рассматривает маргинальное правдоподобие, но вводит важный аспект — применение переменного множителя, учитывающего симметрию параметров.
Почему важен переменный множитель?
Переменный множитель учитывает симметрии в модели. Когда мы рассматриваем нейронные сети, состоящие из нескольких скрытых единиц, мы можем наблюдать, что некоторые минимумы функции логарифмического правдоподобия могут быть связаны через перестановки параметров сети. Это приводит к тому, что каждый ненегативный минимум принадлежит семейству симметричных минимумов. Например, если в слое имеется ( H ) скрытых единиц, число различных симметричных минимумов будет равно ( g = H! \cdot 2^H ).
Идея состоит в том, что если модель обладает симметрией перестановки своих параметров, то это будет отражено в структуре логипостериорного распределения ( M(w) ). Учёт этой симметрии позволяет лучше понять пространство решений и, следовательно, делает выводы о модели более информативными.
Исключение переменного множителя в работе Имер
Удаление переменного множителя в подходе Имер может быть связано с необходимостью достижения большей вычислительной эффективности и простоты. В современных приложениях глубокого обучения, где используются модели с большим количеством параметров, учитывать симметрии может оказаться сложным и ресурсоёмким. Поскольку акцент ставится на масштабы и доступность методов, возможно, Имер решил оставить множество симметричных параметров за пределами своей работы.
Кроме того, можно предположить, что Имер полагал, что влияние переменного множителя на конечный результат в контексте его подхода не является существенным при сравнении моделей разных архитектур и размеров. В конечном счете, важным является относительное сравнение моделей, а не абсолютная оценка их вероятностей.
Влияние на модельный отбор
Отсутствие учета переменного множителя в методе Имер может оказывать значительное влияние на процесс выбора модели. При сравнении архитектур с различным количеством скрытых единиц, игнорирование симметрий приводит к вероятностной искажению, что может привести к выбору подопытной модели, предвзятости при оценивании её работоспособности и, в конечном итоге, к недостаточной жесткости модели.
Заключение
Переменный множитель для маргинального правдоподобия представляет собой важный аспект при оценке и сравнения моделей в контексте глубокого обучения. Хотя работа Имер представляет собой значимый вклад в эту область, отказ от учета переменного множителя может оказывать влияние на точность выборки моделей, что требует дальнейшего обсуждения и экспериментов в будущем. Давать точную оценку с учетом симметрии — это не только глубже понять структуру нейронных сетей, но и повысить эффективность выбора в рамках структуры глубокого обучения.