Вопрос или проблема
CIFAR 10 против CIFAR 100 — это самый популярный эталонный набор данных для оценки производительности вне распределения (OOD). Google в своем посте 2022 года “по направлению к надежности в глубоких обучениях”[1] использовал CIFAR 10 против CIFAR 100 для демонстрации своей новой модели на уровне самых современных технологий – pixel. Основной особенностью CIFAR 10 против CIFAR 100 является взаимная исключительность, что означает, что CIFAR 100 включает только отрицательные примеры CIFAR 10. Например, в CIFAR 10 есть классы “автомобили” и “грузовики”, но нет класса “пикапы”, который есть только в CIFAR 100. Однако класс “пикапы” в CIFAR 100 относится к суперклассу “транспортные средства 2”, а не “автомобили” или “грузовики”. Так как же использовать CIFAR 100 для тестирования OOD для CIFAR 10?
[1] https://ai.googleblog.com/2022/07/towards-reliability-in-deep-learning.html
Класс-wise уверенность на пороге
В предыдущем ответе был предложен ручной аннотирование как метод с человеческим контролем для сопоставления классов. Однако я задал тот же вопрос ChatGPT, и суть его ответа была таковой:
Как можно использовать CIFAR 100 для измерения производительности OOD для многоклассового классификатора, обученного на CIFAR 10?
“Чтобы измерить производительность OOD модели, мы можем оценить ее способность правильно идентифицировать образцы из CIFAR 100 как OOD. Один из подходов – использовать предсказательную неопределенность модели для идентификации образцов OOD. Например, если предсказанная вероятность модели для образца из CIFAR 100 низкая для всех классов, мы можем сделать вывод, что этот образец, вероятно, OOD. С другой стороны, если предсказанная вероятность модели для образца из CIFAR 100 высокая для одного из классов в CIFAR 10, мы можем сделать вывод, что данный образец не является OOD.”
Ручное сопоставление ближайших классов
Ответ заключается в ручном сопоставлении между классами наборов данных. Происхождение этого объясняется в статье “Измерение человеческой производительности по задаче OOD на CIFAR-100 против CIFAR-10″[1]*. Таким образом, необходимо вручную выбрать и аннотировать классы из CIFAR 100, наиболее подходящие для измерения производительности OOD для класса CIFAR 10. Например, “пикапы” будут вручную выбраны из CIFAR 100 и вручную аннотированы как “грузовики”, а затем использованы для измерения производительности OOD для класса “грузовики”.
[1] https://proceedings.neurips.cc/paper/2021/file/3941c4358616274ac2436eacf67fae05-Supplemental.pdf
*Хотя типичная точность, которую достигает человек, часто известна для задач классификации, такой эталон нехватает для обнаружения близких OOD. Мы решили измерить человеческую производительность в задаче различия CIFAR-100 и CIFAR-10. Для этого мы написали простой графический интерфейс (GUI), в котором пользователю представляется фиксированное количество изображений, случайно выбранных из тестовых наборов с распределением и вне распределения (CIFAR-10 и 100 в нашем случае). Пользователь затем нажимает на изображения, которые, по его мнению, принадлежат к распределению. Чтобы облегчить это, мы позволяем пользователю выбирать изображения, принадлежащие отдельным классам распределения. Пример нашего GUI показан на рисунке 8.
Ответ или решение
Использование CIFAR 10 и CIFAR 100 для оценки производительности вне распределения (OOD)
Введение
В последние годы наборы данных, такие как CIFAR 10 и CIFAR 100, стали основными инструментами для оценки производительности моделей глубокого обучения в задачах, связанных с определением объектов вне распределения (OOD). CIFAR 10 содержит 10 классов изображений, в то время как CIFAR 100 имеет в 10 раз больше классов, представляя более детализированное представление объектов. В этом ответе представлены основные методы и подходы к использованию этих наборов данных для тестирования производительности OOD.
Понимание взаимной исключительности
Основной особенностью CIFAR 100 является наличие негативных примеров классов CIFAR 10. Например, класс "пикап" в CIFAR 100 не включён в класс "грузовики" из CIFAR 10, а относится к суперклассу "автомобили 2". Это создает уникальную возможность для оценки модели на предмет её способности различать классы, которые не представлены в обучающем наборе данных.
Подходы к оценке OOD
1. Использование порогов уверенности на уровне классов
Метод, основанный на анализе вероятностей, позволяет определить, является ли данный экземпляр OOD. Если модель выдает низкую вероятность для всех классов CIFAR 10 при анализе изображения из CIFAR 100, это свидетельствует о том, что изображение, скорее всего, принадлежит OOD. В противном случае, если вероятность высокая для одного из классов CIFAR 10, модель может ошибочно классифицировать его как принадлежащий к этому классу, что указывает на недостаточную способность модели к выявлению OOD.
2. Ручное мapping классов
Ручное сопоставление классов из CIFAR 100 с соответствующими классами из CIFAR 10 является ещё одним методом оценки OOD. Для этого важно ручным образом аннотировать классы из CIFAR 100, которые могут быть использованы для тестирования модели, обученной на CIFAR 10. Например, класс "пикап" может быть размечен как "грузовик". Это позволяет создать точную связь, помогающую при тестировании модели на её способности распознавать негативные примеры.
Пример проведения тестирования
Исследование, касающееся оценки производительности человека II при различении классов CIFAR 10 и CIFAR 100, продемонстрировало процесс: пользователи получают изображения из обоих наборов данных и должны классифицировать их в соответствии с представленными классами. Это дает возможность создать контрольные метрики для анализа производительности моделей.
Заключение
Использование CIFAR 10 и CIFAR 100 для оценки OOD производительности открывает широкие возможности для глубокого анализа и улучшения моделей распознавания. Применяя пороговые значения уверенности и ручное сопоставление классов, исследователи могут более эффективно определять предельные случаи и углублять понимание поведения моделей. Это приводит к более надежным решениям в области глубокого обучения, что является особенно ценным для создания систем, требующих высокой степени уверенности в выводах.
Таким образом, эффективное применение данных методик приведет к повышению качества результатов работы моделей глубокого обучения, а также улучшению их адаптивных способностей в условиях реальных задач.