Вопрос или проблема
Я строю 3 модели нейронных сетей на наборе данных, который уже разделен на обучающую и тестовую выборки. В ходе анализа я обнаружил, что этот набор данных содержит значения в тестовом наборе, которые не существуют в обучающем наборе. Это накладывает определенное ограничение или максимальную емкость на мою модель(-и) нейронной сети. Под этим я имею в виду, что не могу улучшить точность, даже если изменяю гиперпараметры или параметры моих моделей.
Я создал 3 модели нейронных сетей и варьировал почти всё:
- Количество узлов/скрытых слоев,
- Входные признаки (проводил отбор признаков и уменьшение пространства),
- Функции активации и функции потерь,
- Регуляризация, оптимизатор и другое,
Когда я пытаюсь усреднить предсказания этих 3 моделей, я не вижу никаких улучшений. Хотя я много читал, что если изменить такие параметры, можно получить некоррелированные модели. Но в моем случае это не так, потому что я всегда нахожу корреляцию между предсказаниями моделей, когда вычисляю Pearson Correlation
.
После построения всех этих моделей я уверен, что обучающая и тестовая выборки не взяты из одного и того же распределения (то есть они не являются случайным разделением какого-то полного оригинального набора данных), что означает, что и другие признаки, вероятно, также имеют различное распределение.
Некоторые предложили, что я мог бы объединить обучающую и тестовую выборки, но я не хочу этого делать, так как этот набор данных был разработан таким образом. Но я хотел бы вытянуть мою валидационную выборку из тестовой выборки, возможно ли это? Могу ли я использовать валидационную выборку, случайно выбранную из тестовой выборки, для настройки моделей?
Забудьте на мгновение, что вы работаете с нейронной сетью. Надеюсь, вы также учитываете время. Если бы вы выполняли обычную регрессию и время было одним из факторов, вам пришлось бы применить штраф за экстраполяцию к вашим доверительным интервалам, чтобы наказать вашу модель за отклонение от наблюдаемого диапазона.
Другая возможность состоит в том, что в вашем наборе данных есть интервенция. То есть возможно, что что-то произошло, и вам действительно нужно провести тест на дисперсию между обучающим и тестовым наборами данных.
Традиционная регрессия минимизирует дисперсию вокруг среднего, но существует также регрессия по медиане, которая разработана для этой конкретной проблемы, когда в модели возникают проблемы с дисперсией.
Я не думаю, что оправдано обучаться на тестовой выборке. Более оправдано расширить обучающую выборку внешними данными, если они доступны (если это так, пожалуйста, укажите внешние данные при составлении отчета, особенно для академической отчетности).
Если ваши данные табличные, вы можете попробовать поработать над инженерией признаков или улучшить метод предобработки. Если ваши данные изображений, вы можете попробовать добавить внешние (любые, кроме тестовой выборки вашего собственного набора данных) и применить уникальные идеи аугментации данных.
Пока ваша сеть не переобучается и способна хорошо обобщать, это не должно быть проблемой. Предполагаю, что результаты будут сравниваться в рамках академического обсуждения. Если это так, не волнуйтесь слишком сильно, так как другие тоже могут столкнуться с этой проблемой. Если вы сможете ее решить, это замечательно, так как это означает, что вы смогли разработать сеть, которая способна очень хорошо обобщать. Но если нет, пока вы можете объяснить возникшую проблему, менее желательный результат вполне понятен.
Ответ или решение
Вопрос о возможности отобрать валидационный набор из тестового набора данных в контексте нейронных сетей вызывает ряд важных аспектов, которые требуют внимательного рассмотрения. Необходимость улучшения модели, несмотря на модификации гиперпараметров и структуры сети, отражает значимость анализа распределения данных.
Исходные данные и распределение
Исходная проблема заключается в том, что тренировочный и тестовый наборы, по всей видимости, не представляют собой случайное распределение из одной общей выборки, что означает различие в распределении некоторых признаков. Данные такой природы могут отрицательно сказываться на способности модели к обобщению, особенно если тестовый набор включает значения, которых нет в тренировочном наборе. Это указывает на неоднородность выборки и необходимость внимательного рассмотрения стратегии валидации.
Опции валидации
Использование тестового набора для создания валидационного подразумевает под собой риски, поскольку тестовый набор предназначен для оценки окончательной производительности модели, а не для её настройки. Тем не менее, при необходимости вы можете временно выделить часть тестового набора для валидации, но данное решение ставит под угрозу объективность оценки модели. Здесь важно отметить, что тестовая часть данных должна оставаться изолированной для окончательной проверки результатов.
Альтернативы валидации
-
Объединение данных с внешними источниками: Если возможно, дополнение тренировочного набора внешними данными может улучшить распределение и повысить способность модели к генерализации.
-
Фичер-инжиниринг и расширение: Разработка новых признаков или улучшение процесса предобработки может также повысить точность модели. Рассмотрите возможность применения техник, таких как нормализация, обработка дисбаланса классов и коррекция выбросов.
-
Анализ интервенций и дисперсионный анализ: Проверка на наличие потенциальных интервенций и тесты на дисперсию между тренировочной и тестовой выборками позволят лучше понять различия в данных и принять обоснованные решения по смягчению их влияния.
Заключение
Тренировка модели на тестовом наборе не является оправданной стратегией для улучшения её производительности. Более продуктивным подходом будет улучшение тренировочного процесса за счет внешних данных, либо тщательной работы над признаковым пространством. Учитывая, что ваша ситуация может совпадать с трудностями, с которыми сталкиваются и другие исследователи, важно сосредоточиться на объяснении проблемы и представлении результатов анализа в академическом контексте.
Таким образом, решение задачи требует всестороннего анализа и аккуратного поиска компромисса между валидацией и окончательной проверкой результатов, уделяя должное внимание корректности методологического подхода.