На каких данных оценивать модель детекции объектов? (на аналогичных или реальных данных?)

Вопрос или проблема

Я обучаю модель обнаружения объектов (SSD300) для распознавания и классификации поз тела на термографических изображениях.

Несмотря на то, что у меня есть более 2 тысяч различных поз, фон не меняется значительно (у меня только 5 различных точек зрения).

Я обучал свою модель на этих изображениях (70% для обучения и 30% для валидации).

Теперь я хочу оценить модель на непредвзятом датасете.

Должен ли я оставить изображения из моего датасета для этой цели или мне следует использовать датасет из реальной жизни?

(Хорошим решением было бы иметь набор данных для обучения из реальной жизни, но у меня его нет)

Я пробовал оба варианта, но, как и ожидалось, у меня mAP=0.9 при оценке на похожих фотографиях и mAP=0.5 при оценке на совершенно разных изображениях.

Вопрос на размышление: является ли mAP релевантной метрикой, когда я хочу показать результат клиенту? (например, клиент не понимает, если я скажу ему “у моей модели mAP=0.7”)

Точность-Полнота? (но мне нужно выбрать порог классификации поз…)

Модель будет работать лучше, если ей предоставить данные, аналогичные тем, на которых она обучена. Я думаю, вам стоит попробовать смешать два датасета и проверить результаты. Клиенту можно показать три результата и объяснить, как это отличный продукт. Вместо mAP покажите график точности и полноты, чтобы объяснить точность.

Ответ или решение

Для оценки модели детекции объектов, такой как SSD300, особенно в контексте распознавания и классификации поз человека на термографических изображениях, критически важно тщательно подойти к выбору метода оценки. В описанном вами случае есть несколько аспектов, которые следует учитывать.

Используемые данные для оценки модели

  1. Схожесть данных: Вы уже тренировались на наборе изображений с определённым набором позиций и фонов. Поэтому при оценке модели на аналогичных изображениях (т.е. в том же контексте и с похожими условиями освещения и фоном) вы получите заведомо завышенные результаты. Ваша модель достигла mAP=0.9, что может говорить о её способности хорошо распознавать обученные позы в знакомом окружении, но это не будет отражать её производительность в реальной жизни.

  2. Реальные данные: Когда вы проводите оценку на совершенно других изображениях, вы видите падение mAP до 0.5. Это указывает на переобучение модели, когда она эффективно работает только в условиях, на которых была обучена, и не может обобщать знания на новые, ранее не встречавшиеся изображения.

Рекомендации по выбору данных для оценки

  • Смешанный подход: Наилучшим решением будет использование как ваших тренировочных данных, так и реальных данных. Вы можете создать подмножество реальных данных или синтетических, чтобы оценить, как модель работает в условиях, близких к тем, с которыми она столкнётся в praktike. Попробуйте смешать изображения из вашей базы с реальными изображениями, чтобы получить более полное представление о производительности.

  • Разнообразие данных: Даже в рамках 5 различных перспектив можно условно варьировать условия (например, освещение, шум и т.д.), добавляя в набор изображения, которые могли бы помочь проверить устойчивость модели.

Метрики оценки

  • mAP: Хотя mAP (mean Average Precision) является общепринятой метрикой, важно помнить, что ваша аудитория может не понимать её значимость. Вместо этого рассмотрите использование более интуитивных визуализаций, таких как графики Precision-Recall.

  • Precision-Recall curve: Объясните клиенту, что эта метрика показывают, как эффективно модель распознаёт позы по сравнению с количеством неверных классификаций. Также учтите, что вам потребуется выбрать порог для классификации позы. Это может быть сделано на базе того, что наилучшим образом отражает специфику задачи вашего клиента.

Заключение

Подход к оценке модели детекции объектов должен быть многогранным. Использование как схожих, так и реальных данных даст вам возможность качественно оценить угол обобщения вашей модели. Для передачи результатов клиенту лучше всего использовать визуальные метрики, такие как графики Precision и Recall, чтобы наглядно показать возможности вашей модели и объяснить её производительность в понятной форме.

Оцените материал
Добавить комментарий

Капча загружается...