- Вопрос или проблема
- Ответ или решение
- Статистическое тестирование значимости в задачах регрессии с использованием глубокого обучения
- Выбор подхода: K-Fold или тестовая выборка?
- Статистические тесты: применимость к результатам тестового набора
- Возможные ограничения и предостережения
- Использование MSE и его сравнение
- Заключение
Вопрос или проблема
Я читал учебник “Тест на статистическую значимость для сравнения алгоритмов машинного обучения”, в котором предлагается использовать k-слой и применять соответствующий статистический тест.
Предположим, что у меня есть обучающая выборка и тестовая выборка, а также две нейронные сети глубокого обучения в задаче регрессии. Поскольку обучение в глубоких нейронных сетях занимает много времени, процедура тестирования с использованием k-слой будет очень затратной с точки зрения вычислительных ресурсов.
Мне интересно, возможно ли применять статистические тесты только к результатам тестовой выборки.
Например, если тестовая выборка содержит 1000 образцов, две нейронные сети будут обучены на одной и той же обучающей выборке, а затем применить тест Вилкоксона к результатам двух сетей по 1000 точкам тестовой выборки, правильно? Или мне всегда нужно выполнять k-слой? Кроме того, могу ли я использовать MSE в каждой тестовой точке и сравнивать эти результаты?
Вы можете использовать как k-слой, так и только тест.
K-слой — это вариант, который дает вам больше надежности, так как вы пробовали на каждой возможной комбинации обучающей/тестовой выборки, но вы все равно избегаете переобучения, если используете разделение на обучающую и тестовую выборки.
Просто убедитесь, что вы используете один и тот же набор данных во всех сравнениях, которые делаете.
Нет, вы не можете. Значимость вашей модели может быть получена только из обучающих данных. Поскольку сама значимость является показателем того, насколько хороша ваша модель, вы можете быть склонны, в зависимости от результатов, вернуться и изменить модель.
Если вы используете тестовые данные, весь смысл использования обучающей выборки для создания модели теряется.
Ответ или решение
Статистическое тестирование значимости в задачах регрессии с использованием глубокого обучения
В последние годы глубокое обучение стало основным инструментом в области анализа данных и предсказаний, в том числе и в задачах регрессии. Тем не менее, когда речь заходит о сравнении различных моделей, важным аспектом является использование статистических тестов для определения значимости различий в их производительности. В этой статье мы обсудим правильные методы статистического тестирования в контексте задач регрессии, чтобы обеспечить надежность и валидность выводов.
Выбор подхода: K-Fold или тестовая выборка?
При работе с моделями глубокого обучения, которые требуют значительных вычислительных затрат, решение о том, как провести оценку производительности моделей, может быть сложным. Два основных подхода – это k-fold перекрестная проверка и использование тестовой выборки.
-
K-Fold Перекрестная Проверка: Этот метод подразумевает разбиение всего доступного набора данных на k подмножеств (фолдов). Затем модель обучается на k-1 фолдах и тестируется на оставшемся фолде. Процесс повторяется k раз, обеспечивая более надежную и обобщаемую оценку производительности модели. Это позволяет избежать переобучения и гарантирует, что каждая запись данных используется как для обучения, так и для тестирования.
-
Использование тестовой выборки: Вся выборка дает возможность оценить производительность модели без дополнительной нагрузки на вычислительные ресурсы, особенно когда глубинные нейронные сети требуют значительного времени на обучение. В этом контексте, можно оценить производительность двух моделей на фиксированном тестовом наборе данных и провести сравнение с помощью статистических тестов.
Статистические тесты: применимость к результатам тестового набора
Использование статистических тестов, таких как тест Уилкоксона, действительно возможно, если речь идет о сравнении результатов двух моделей. Если у вас есть 1000 образцов в тестовом наборе, вы можете:
- Обучить обе модели на одном и том же тренировочном наборе данных.
- Применить каждую модель к тестовому набору и получить результаты предсказания.
- Применить тест Уилкоксона к результатам двух моделей, чтобы оценить, есть ли статистически значимые различия между их предсказаниями.
Возможные ограничения и предостережения
Тем не менее, следует отметить, что применение тестов к результатам тестового набора может быть связано с риском. Если вы, основываясь на статистической значимости, решите изменить архитектуру или гиперпараметры модели, это может привести к переобучению на тестовых данных. Поэтому важно рассматривать использование тестовой выборки как финальный шаг в процессе оценки, сохраняя ее без изменений до полной финализации модели.
Использование MSE и его сравнение
Вы также можете использовать среднеквадратическую ошибку (MSE) в качестве метрики для сравнения производительности моделей. Рассчитывая MSE для каждого экземпляра в тестовом наборе, вы сможете применить сопоставимые статистические тесты. Однако, приходит к выводу о значимости различий между моделями, всегда придерживайтесь подхода, где данные для оценки не использовались для обучения моделей.
Заключение
Статистические тесты играют важную роль в анализе производительности моделей глубокого обучения в задачах регрессии. Объективное измерение статистической значимости поможет не только выбрать лучшую модель, но и повысить доверие к результатам с точки зрения бизнеса. Независимо от того, выберете ли вы k-fold перекрестную проверку или будете использовать тестовую выборку, важно следовать принципам честности и прозрачности в вашем анализе.