Лучше ли обучать модель CNN на плохих изображениях или на хороших, если тестовые данные будут низкого качества?

Question 1

Это очень общий вопрос, поэтому давайте возьмем очень общий пример: представьте модель CNN, которая различает изображения лиц собак и кошек. У нас есть два типа обучающего набора данных: один с полными признаками и один с дефектными. Под дефектными я имею в виду такие, которые содержат шум и у которых отсутствуют важные детали, НО это все равно лица собак и кошек, так что дефектные данные здесь означают, что это шумный поднабор полных изображений (представьте лицо собаки без носа или ушей!). Теперь:

ЕСЛИ МЫ ЗНАЕМ, что тестовый набор данных будет дефектными изображениями, лучше ли обучать CNN на дефектном наборе данных или лучше обучать CNN на полном наборе данных?

Для главного ответа предположим, что денойзинг наборов данных невозможен.

Question 2

Когда вы знаете, что тестовый набор данных будет содержать дефектные изображения (например, шумные, с отсутствующими признаками или другими искажениями), обычно лучше обучать вашу модель CNN на дефектном наборе данных, а не на чистых изображениях с полными признаками. Вот почему:

1. Модель может адаптироваться к шуму:

CNN, обученная на чистых, полнофункциональных изображениях, может плохо работать с шумными или дефектными изображениями, потому что она учится извлекать признаки, предполагая наличие полных, высококачественных данных. Модель может полагаться на специфические детали изображения, которые отсутствуют или ухудшены в тестовых данных, что приводит к плохой обобщаемости и производительности при столкновении с дефектами или шумом во время тестирования.

С другой стороны, когда CNN обучается на дефектных изображениях (в которых есть шум и отсутствующие детали), она учится выявлять наиболее устойчивые признаки, которые все еще могут различать категории (например, собака против кошки) несмотря на шум или отсутствующие части. Это позволяет модели адаптироваться к характеристикам тестовых данных, которые также являются дефектными.

2. Передача обучения между обучающими и тестовыми данными:

По определению (согласно Википедии):

Тестовый набор данных: Тестовый набор данных – это набор данных, который независим от обучающего набора данных, но который следует той же вероятностной распределению, что и обучающий набор данных.

Если ваши обучающие данные имеют полные признаки, а тестовые данные дефектные (т.е. не следуют той же вероятностной распределению, что и обучающий набор), модель может не смочь распознать шаблоны или сделать точные предсказания в реальном сценарии, где тестовые изображения шумные. Этот “сдвиг домена” между чистыми обучающими данными и шумными тестовыми данными может сильно повлиять на производительность. Обучение на дефектных данных, по сути, “подготавливает” модель к тому типу данных, с которыми она столкнется во время тестирования.

Однако, если вы вынуждены обучаться на чистых данных, модель может слишком сильно полагаться на специфические, чистые признаки, которые не появляются в дефектных данных. В результате, способность модели к обобщению будет снижена, когда она столкнется с шумными или неполными тестовыми образцами.

3. Обучение устойчивым признакам:

Дефектные изображения могут по-прежнему содержать достаточно информации для изучения важных признаков, даже если они шумные или неполные. Обучаясь на этих дефектных изображениях, CNN учится извлекать признаки, которые более устойчивы к типам искажений, которые будут присутствовать в тестовом наборе.

Это похоже на концепцию Техники увеличения данных, в которой модель подвергается различным формам данных (например, поворотам, трансляциям и т.д.), что помогает ей стать более устойчивой к изменению входных данных.

Таким образом, основываясь на гипотетическом сценарии, который вы описали с изображениями собак и кошек, я бы рекомендовал обучать CNN, используя смесь как дефектных, так и недефектных изображений, чтобы CNN могла лучше обобщать, пытаясь классифицировать изображение собаки или кошки (даже с дефектными изображениями), а также в отношении тестового набора вы также должны убедиться, что он содержит дефектные и недефектные изображения (он должен следовать вероятностному распределению, аналогичному обучающему набору).

Лучше ли обучать модель CNN на плохих изображениях или на хороших, если тестовые данные будут низкого качества?

Вопрос или проблема

Ответ или решение

1. Адаптация модели к шуму

2. Перенос обучения между обучающей и тестовой выборками

3. Устойчивое извлечение признаков

Рекомендация