Вопрос или проблема
Мы пытаемся классифицировать поврежденные автомобили от неповрежденных с помощью службы MS Azure Computer Vision. Проблема в том, что модель показывала лучшие результаты, когда она была обучена на меньшем количестве данных по сравнению с большим объемом данных. Есть идеи, что происходит?
Custom Vision может вести себя таким образом, если увеличенное количество данных запутывает основную модель.
Это может быть связано с неправильно маркированными данными. Вы можете провести ручную проверку качества новых данных, добавляемых путем создания тестового набора. Сравните этот вручную оцененный тестовый набор с маркированным набором, который у вас есть в Custom Vision.
Еще одной проверкой является удаление почти одинаковых изображений в обоих классах. Если признаки схожи с очень незначительными отличиями, это может затруднить модели уверенное распознавание.
Режим обучения также может иметь влияние. Используйте автоматизированное и пользовательское время обучения для проверки этого.
Надеюсь, это поможет!
Ответ или решение
В условиях текущей проблемы с классификацией поврежденных и неповрежденных автомобилей с помощью сервиса MS Azure Computer Vision, вы столкнулись с необычным поведением модели: производительность ухудшается при увеличении объема данных для обучения. Давайте разберем этот вопрос более детально.
Возможные причины снижения точности модели
-
Ошибка в маркировке данных: Ключевой причиной ухудшения качества модели может быть неправильно размеченные данные. Поскольку компьютерное зрение чувствительно к точности разметки, необходимо провести ручную проверку недавно добавленных данных. Выберите выборку новых данных, проверьте их вручную и сравните с разметкой в Custom Vision.
-
Избыточное количество похожих изображений: Если данные содержат множество похожих изображений в обеих категориях (поврежденные и неповрежденные автомобили), это может затруднить модели выделение отличительных признаков. Рассмотрите возможность удаления дублирующихся или крайне похожих изображений, чтобы облегчить задачу модели.
-
Способы обучения модели: Проверьте, какой метод обучения используется — автоматический или кастомный. Разные подходы могут предоставлять разные результаты в зависимости от характера данных. Возможно, стоит попробовать изменить метод обучения, чтобы оптимизировать результаты.
Рекомендации по улучшению
-
Контроль качества данных: Учтите проведение регулярных проверок качества данных перед их добавлением в обучающий набор. Это поможет избежать ошибок в разметке и обеспечит более чистый набор для обучения модели.
-
Применение различных моделей: Рассмотрите возможность использования разных архитектур или алгоритмов, которые могут быть более устойчивы к добавлению большого количества данных.
-
Постоянное тестирование и валидация: Создайте более надежные процедуры тестирования и валидации, которые помогут понять, как увеличение данных влияет на модель, и обеспечат возможность адаптации в случае ухудшения результатов.
Заключение
Поведение вашей модели может улучшиться при учете вышеупомянутых факторов. Не забывайте, что ключ к успешной классификации лежит в качестве используемых данных и оптимизации процесса обучения. Уделив внимание правильной работе с данными и выбору модели, вы сможете добиться лучших результатов.
Помните, что постоянное тестирование и адаптация являются неотъемлемой частью всех процессов машинного обучения. Удачи в решении вашей задачи!