Вопрос или проблема
Существует ли теоретическое обоснование для использования другой метрики на валидационном наборе для выбора модели, чем та, которая использовалась для обучения? Например, можно обучить модель, используя какой-либо тип дифференцируемой потери (т.е. логистическую), чтобы можно было применить градиентный спуск, а затем провести выбор модели, используя другую метрику (т.е. F1-меру или среднюю точность). Есть ли общее ожидание, что метрика обучения является хорошим прокси для метрики валидации, или что лучшие результаты по одной метрике означают лучшие результаты по другой метрике?
Валидационная метрика выбирается на основе конечной цели модели. Например, в анализе медицинских изображений для выявления рака, ложные негативные результаты (выявление раковых изображений как нераковых) должны быть очень низкими, так как это катастрофическая ситуация, но некоторые ложные положительные результаты (выявление нераковых изображений как раковых) все еще допустимы, так как это не будет очень вредно или фатально. Таким образом, в этом случае мы стремимся больше сосредоточиться на поддержании высокого показателя полноты (TP/TP+FN), чтобы получить высокий TP по сравнению с FN. Поскольку оценка полноты не является дифференцируемой (не может использоваться в качестве функции потерь), мы стремимся учитывать ее в нашей функции потерь, которая использовалась для обучения модели, для получения лучших результатов. Ознакомьтесь с этой статьей: https://towardsdatascience.com/the-unknown-benefits-of-using-a-soft-f1-loss-in-classification-systems-753902c0105d
“Есть ли общее ожидание, что метрика обучения является хорошим прокси для метрики валидации?” Что ж, да. Цель обучения модели заключается в том, чтобы позволить ей выполнять желаемую задачу на невидимых данных (оцененных с использованием валидационной метрики). В процессе обучения модель учит, что делать с новыми данными (валидационными данными), она будет выполнять то, что изучила, поэтому для достижения хороших результатов на валидационных данных метрика обучения должна быть хорошим прокси для метрики валидации.
Ответ или решение
Использование различных метрик для обучения и валидации моделей поднимает важные вопросы, касающиеся теоретических обоснований и практических последствий данной стратегии.
Важно понимать, что выбор метрики для валидации должен основываться на конечной цели модели. Например, в области медицинской диагностики, когда задача заключается в обнаружении рака, необходимо минимизировать количество ложных отрицательных срабатываний (когда рак не распознается), так как это может привести к серьезным последствиям для пациентов. В данном случае акцент следует делать на повышении полноты (recall), что означает увеличение верно распознанных случаев (TP) относительно ложных отрицательных (FN). Поскольку recall не является дифференцируемой функцией (и, следовательно, не может быть использован в качестве функции потерь для градиентного спуска), необходимо интегрировать его в функцию потерь, используемую для обучения модели, чтобы достичь лучших результатов.
Теперь относительно вопроса, является ли общим ожиданием, что метрика, используемая в процессе обучения, будет хорошим прокси для метрики валидации: да, действительно, это так. Основная цель обучения модели — подготовить ее к выполнению желаемой задачи на ранее не виденных данных, которые оцениваются с использованием метрики валидации. В процессе обучения модель накапливает знания о том, как выполнять задачу, и чем лучше метрика обучения коррелирует с метрикой валидации, тем более вероятно, что модель будет успешно работать на новых данных.
Тем не менее, различия в метриках могут возникнуть из-за специфики задач и особенностей распределения данных. Поэтому важно при разработке моделей проводить тщательный анализ и экспериментирование с функциями потерь и метриками, чтобы убедиться в их согласованности и эффективности.
Кроме того, в зависимости от конкретной задачи, можно использовать другие методы, такие как адаптация различных функций потерь, которые могут учитывать специфические требования вашей задачи. Например, использование “мягкой F1-метрики” в качестве функции потерь может помочь в улучшении производительности модели по сравнению с классической логистической регрессией, учитывая как истинные положительные, так и ложные ошибки.
Таким образом, хотя использование различных метрик на этапе обучения и валидации может быть оправданным в зависимости от специфики задачи, важно оставаться осведомленным о том, как эти метрики взаимосвязаны и как они влияют на конечные результаты.