Сравнение наборов данных - Нужно ли использовать один и тот же тестовый набор данных?

Содержание

Вопрос или проблема
Ответ или решение
1. Принципы оценки производительности модели
2. Тестирование на одной и той же тестовой выборке
3. Тестовая выборка с аналогичными характеристиками
4. Комбинирование тестовых выборок
5. Рекомендации

Вопрос или проблема

Я обучаю модель ML CNN. Я хочу сравнить различные наборы изображений. Эти наборы имеют разные характеристики (переведенные или нет, повернутые или нет и т.д.).

Я не изменяю модель ML между обучением на разных наборах данных.

Должен ли я использовать один и тот же тестовый набор данных для их сравнения? Этот набор не будет изменяться во время тестирования и будет содержать данные, которые нельзя найти больше нигде. Он не будет более подходящим для конкретного обучающего набора данных.

Или мне следует использовать тестовый набор данных с теми же характеристиками, что и обучающий набор данных? Чтобы я мог сравнить их наилучшим образом?

Например, если я хочу сравнить наборы данных A и B, должен ли я использовать сочетание тестового набора данных A и тестового набора данных B? Или при тестировании набора данных A использовать тестовый набор A, а при тестировании набора данных B – тестовый набор B.

Тестируя модель на одном и том же наборе данных (с одинаковыми характеристиками), вы получите информацию о том, насколько актуальны ваши гиперпараметры для этого набора данных.

Затем вы можете протестировать на другом наборе данных, который имеет другие характеристики. Это даст вам информацию о том, насколько хорошо модель обобщает.

Я бы не создавал смешанный набор данных для тестирования модели для интерпретации, так как это может скрыть интересную информацию. Например, случай 1: вы предсказываете 100% образцов из тестового набора A и только 50% из тестового набора B. Случай 2: вы предсказываете 75% из обоих. Интерпретация будет не той же. Но если вы хотите сравнить две модели, созданные из 2 разных обучающих наборов, тогда да, сравните их с помощью одного и того же тестового набора данных, иначе тест будет искаженным.

Ответ или решение

Вопрос о том, следует ли использовать одну и ту же тестовую выборку для сравнения различных наборов данных в задачах машинного обучения, имеет большое значение для корректной оценки производительности вашей модели. Давайте рассмотрим это более подробно.

1. Принципы оценки производительности модели

При сравнении моделей, обученных на разных наборах данных, важно понимать, что тестовая выборка должна соответствовать условиям, в которых предполагается использование модели. Если данные из тестовой выборки не представляют собой тех характеристик, с которыми модель столкнется в реальных условиях, это может привести к искаженным результатам.

2. Тестирование на одной и той же тестовой выборке

Если вы хотите оценить и сравнить производительность двух моделей, обученных на разных наборах данных (например, набор A и набор B), использовать одну и ту же тестовую выборку, содержащую уникальные данные, выглядит разумным решением. Это обеспечит наилучший способ для проверки того, как конкретная модель справляется с задачей, и выявит, насколько хорошо она обобщает на данных, которые не использовались в процессе обучения.

3. Тестовая выборка с аналогичными характеристиками

С другой стороны, если вы хотите оценить эффективность конкретного набора данных (например, A или B), то использование тестовой выборки с аналогичными характеристиками является целесообразным. Это позволит вам получить более точное представление о том, как хорошо ваша модель работает в рамках специфичных условий, свойственных обучающему набору данных.

4. Комбинирование тестовых выборок

Создание комбинированной тестовой выборки из наборов A и B не рекомендуется, если ваша цель — получить интерпретируемые результаты. Как упоминалось, результаты могут исказиться и не дать ясного понимания о том, какая модель действительно лучше. Например, если модель, обученная на наборе A, покажет высокую точность на тестовом наборе A, но низкую на тестовом наборе B, это указывает на то, что модель адаптировалась под специфические характеристики набора A.

5. Рекомендации

Таким образом, полезно применять два различных подхода:

Для проверки обобщающей способности модели: используйте единую тестовую выборку на основе уникальных данных, которая не пересекается ни с одним из обучающих наборов.
Для оценки специфической производительности: используйте тестовые наборы, соответствующие каждому из обучающих наборов, чтобы оценить, как хорошо каждая модель работает в своих специфичных условиях.

В заключение, подход к выбору тестовой выборки зависит от ваших целей. Использование одной и той же тестовой выборки для сравнения моделей, обученных на разных данных, даст более объективную оценку и поможет избежать искажений в интерпретации результатов.

Сравнение наборов данных – Нужно ли использовать один и тот же тестовый набор данных?