Вопрос или проблема
У меня есть 2 вопроса касательно всей темы набора данных в машинном обучении, и я был бы рад получить ответ 🙂
1. Почему неправильно вычислять и использовать средние значения и стандартные отклонения тестового набора?
2. Почему мы должны ограничить количество раз, когда мы используем тестовый набор, и что мы должны использовать валидацию?
Большое спасибо
Тестовый набор предназначен для оценки, то есть для проверки, насколько хорошо работает модель.
- Для надежной оценки информация из тестового набора не должна быть доступна до фактического тестирования, по той же причине, по которой студенту не предоставляются вопросы теста заранее.
- Тестовый набор содержит множество примеров. Это необходимо для надежной оценки, поскольку производительность, измеряемая только на нескольких примерах, может быть ненадежной из-за случайности. Но полезно помнить, что цель модели – предсказать для любого индивидуального примера. Это подразумевает, что нет смысла полагаться на некое среднее значение по примерам из тестового набора, поскольку в наборе может быть только один пример.
- Проблема не в повторном использовании тестового набора, а в определении значения параметра (параметра модели или гиперпараметра) на основе этого набора данных. По определению, если это происходит, это относится к этапу обучения, иначе модель была бы фиксированной. Поскольку обычно набор данных повторно используется для изменения чего-либо в модели, этот набор данных не является тестовым набором, а валидационным набором.
Почему мы должны ограничить количество раз, когда мы используем тестовый набор, и что мы должны использовать валидацию?
Наилучшей практикой является оценка тестового набора данных только один раз, поскольку производительность на тестовом наборе данных является наилучшей оценкой способности обобщения обученной модели. Повторная оценка тестового набора данных способствует использованию различных алгоритмов и гиперпараметров для лучшего соответствия тестовым данным. Подбор под тестовый набор данных может привести к переоценке способности обобщения модели.
Почему неправильно вычислять и использовать средние значения тестового набора?
Существует много способов оценить производительность на тестовом наборе данных. Вычисление средней производительности может быть одним из приемлемых способов. Среднее является одним из многих способов измерения центральной тенденции группы данных. Могут быть участки данных, которые более важны, среднее значение это не учитывает.
Ответ или решение
Неправомерность вычисления и использования средних значений тестового набора данных в машинном обучении
Вопрос о том, почему неправильно вычислять и использовать средние значения тестового набора данных, требует глубокого понимания концепций, связанных с обучением моделей машинного обучения. Ниже представлены несколько ключевых аспектов, подчеркивающих, почему это практику неправомерно.
-
Значение тестового набора данных
Тестовый набор данных предназначен исключительно для оценивания производительности модели, которая уже была обучена на тренировочных данных. Это соответствует принципу, согласно которому тестовые данные должны оставаться "недоступными" на этапе обучения, чтобы обеспечить чистоту оценки и избежать утечки информации. -
Предвзятость оценивания
Вычисление средних значений и стандартных отклонений тестового набора данных может привести к предвзятости в оценивании эффективности модели. Если мы используем эти статистические параметры для настройки любых аспектов модели (например, гиперпараметров), это может исказить реальную оценку ее производительности на новых, невидимых данных. -
Общая обобщаемость
Основная задача модели в машинном обучении — это возможность обобщения на реальные данные. Использование средних значений может скрыть детали, которые важны для понимания индивидуальных экземпляров. Например, если определенные классы имеют значительно различающиеся результаты, просто беря среднее, мы можем потерять информацию о том, как модель работает с этими классами. -
Отсутствие репрезентативности
Тестовые наборы данных включают в себя множество экземпляров, но фокус на среднем значении может привести к игнорированию дисперсий и выбросов в данных. Существует риск, что определённые экземпляры могут быть важнее для понимания реальной производительности модели, и среднее значение просто не может передать эту информацию. -
Статистическая значимость
Если мы рассчитываем средние значения на тестовом наборе данных, чтобы использовать его в качестве вспомогательного инструмента для подгонки модели, мы можем случайно переобучить модель под конкретные случаи. Это не только искажает оценивание производительности, но и может привести к переобучению, когда модель слишком сильно адаптирована к тестовым данным, теряя способность обобщать на новые данные.
Заключение
Подводя итог, можно сказать, что вычисление и использование средних значений тестового набора данных в машинном обучении серьезно искажает оценку реальной производительности модели. Для чистоты тестирования необходимо использовать тестовый набор данных только для итоговой оценки, оставаясь верным принципам, которые гарантируют обобщаемость и надежность результатов.
Это поведение соответствует правилам подготовки и тестирования моделей и позволяет избежать проблем, связанных с переобучением и предвзятостью оценок. В конечном счете, для достижения точных результатов и повышения надежности моделей важнее использовать тестовые данные только один раз для конечной оценки производительности.