Веса классов для несбалансированных данных в задачах с множественными метками

Содержание

Вопрос или проблема
Ответ или решение
Формулируем решение:
Почему это важно?
Оптимизация:

Вопрос или проблема

Я пытаюсь обучить CNN для задачи многоклассовой – многометочной классификации (20 классов, каждый образец может принадлежать 1+ меткам), и набор данных сильно несбалансирован. В случаях с одной меткой я бы использовал функцию compute_class_weights из sklearn, чтобы рассчитать веса классов для помощи оптимизатору учитывать минорный класс. Однако, для многометочного случая я чувствую, что это не работает должным образом, потому что учитывает как количество образцов количество раз, когда все классы встречаются, в то время как фактическое количество образцов меньше (так как это многометочная задача). Кто-нибудь знаком с функцией или даже формулой, чтобы рассчитать веса классов в этом случае?

Спасибо

Думаю, что в этом случае вы ищете “стоимостно-чувствительную классификацию” – вы можете поискать ее в Google Scholar, чтобы найти некоторые статьи. Вероятно, вам придется определить “стоимости” для каждого типа ошибочной классификации.

В качестве альтернативы, если вы выполняете классификацию один-против-всех, вы можете перераспределить/увеличить/уменьшить выборку по-разному для каждого класса.

Если ваш набор данных небольшой, вы также можете попробовать установить веса как цель некоторой задачи с ограниченной оптимизацией, чтобы сделать их более сбалансированными.

Ответ или решение

Решение проблемы дисбаланса данных является важной задачей в мультиклассовых и мульти-лейбл классификациях, особенно при использовании сверточных нейронных сетей (CNN). В данном случае, у нас имеется задача классификации с 20 классами, и каждый пример может одновременно принадлежать нескольким классам. Исходный вопрос заключается в том, как рассчитать веса классов для такой задачи, учитывая высокий дисбаланс данных.

Формулируем решение:

Расчет весов классов для мульти-лейбл задачи:
В отличие от обычной классификации, в мульти-лейбл случаем каждый образец может принадлежать множеству классов одновременно. Это значит, что стандартный подход, при котором каждый пример принадлежит только к одному классу, становится неэффективным. Вместо этого рекомендуется учитывать частоту каждого класса относительно общего количества лейблов в наборе данных, а не общего количества примеров.
Использование методов "стоимостной" классификации:
В мульти-лейбл задачах важно определить "стоимость" ошибок классификации для каждого класса. Это значит, что вместо того, чтобы просто взвешивать ваши потери на основе количества примеров в классе, вы можете установить индивидуальные "стоимости" за ошибочные предсказания. Это подойдет для случаев, когда некоторые классы более важны, чем другие. Соответственно, важно сбалансировать потерю с учетом значимости ошибки для каждого класса.
Метод "один против всех" (one-vs-rest):
Расчет веса отдельно для каждого класса, тренируя модель для каждого класса против всех остальных. Это позволяет настраивать модель с учетом особенностей каждого класса и может быть особенно полезно, если разница в значимости классов высока.
Оптимизационные функции:
Еще один подход заключается в использовании оптимизационных техник для настройки весов классов в мульти-лейбл задачах. Эта техника может включать построение специальных целей в задаче оптимизации, которые будут стремиться минимизировать неравномерность между классами.

Почему это важно?

Правильное определение весов классов в условиях неравенства данных может существенно улучшить качество модели и её способность правильно классифицировать примеры, принадлежащие менее представленным классам. Это может привести к более сбалансированному и справедливому представлению всех классов в данных.

Оптимизация:

Проведите эксперименты с различными стратегиями взвешивания и выберите ту, которая покажет наилучшие результаты на вашей валидационной выборке.
Используйте инструменты визуализации для оценки результатов модели на разных этапах обучения.

Рекомендуется также ознакомиться с научной литературой по теме "cost-sensitive learning", чтобы углубленно понять различные подходы и выбрать наиболее подходящий для вашего конкретного случая.