Вопрос или проблема
Кажется, всем известно, что набор данных MNIST с рукописными цифрами содержит довольно много примеров, где метки явно неверные и соответствуют неправильной цифре; ниже приведены некоторые примеры людей, которые исследовали этот вопрос:
https://arxiv.org/pdf/1912.05283
https://cleanlab.ai/blog/label-errors-image-datasets/
Я пытался найти список ‘исправленных’ меток, который бы это исправил, но мне не удалось.
Кажется, что такое, вероятно, существует, не могли бы вы указать мне правильное направление?
Сайт cleanlab.ai ссылается на https://labelerrors.com/, который предоставляет довольно много неправильных или неоднозначных случаев. Страница cleanlab сама по себе дает множество примеров, где довольно сложно сказать, является ли метка правильной или неоднозначной.
Ответ или решение
К сожалению, на сегодняшний день нет официально опубликованной и универсально признанной базы данных с исправленными метками для изображений из набора данных MNIST. Тем не менее, существует несколько ресурсов и исследований, которые касаются ошибок в разметке этого набора данных.
-
Исследования и статьи: Как вы уже отметили, в статье, доступной по ссылке https://arxiv.org/pdf/1912.05283, рассматриваются проблемы с метками в MNIST. Однако сами авторы этой статьи не предоставляют окончательный список ошибочных меток.
-
Cleanlab: Сайт Cleanlab предлагает различные инструменты для обнаружения ошибок в метках, и вы упомянули их страницу https://labelerrors.com/. Хотя он может содержать полезные примеры, в том числе сложные случаи, когда трудно определить, правильная ли метка, это не является полной базой данных исправленных меток.
-
Сообщества и ресурсы: Рекомендуется проверить сообщества, такие как GitHub, где исследователи могут делиться своими находками или предлагаемые исправления меток. Поиск по таким ключевым словам, как "MNIST label correction" или "MNIST dataset errors", может привести к дополнительным источникам.
-
Создание собственного списка: Если вам необходимо исправить метки для вашего проекта, вы можете рассмотреть возможность использования моделей машинного обучения для автоматического определения правильных меток на основе существующих данных. Комбинируя предсказания модели с ручной проверкой, можно создать свой собственный список исправленных меток.
В заключение, несмотря на то что ресурсы для исправления меток существуют, полноценный и свободно доступный список жестко несоответствующих меток MNIST пока не был опубликован. Имеется возможность, что в будущем такие базы данных могут быть разработаны, и рекомендуется оставаться на связи с сообществом для получения обновлений.