Сочетание нескольких вероятностей от классификатора. Пропагирование вероятностей.

Содержание

Вопрос или проблема
Ответ или решение
1. Сбор вероятностей
2. Комбинирование вероятностей
Среднее арифметическое вероятностей
3. Рассмотрение взаимозависимости
Применение теоремы Байеса
4. Проблема нормализации
5. Вывод вероятностей
Заключение

Вопрос или проблема

Допустим, я обучил классификатор, который классифицирует изображения животных на 10 разных классов. И предположим, что у меня есть 20 различных изображений конкретного животного, и поскольку я знаю фотографа, я с уверенностью знаю, что все 20 изображений одного и того же животного. Я использую свой классификатор, чтобы сделать предсказание о том, какое это животное, и получаю 20 предсказаний, по одному для каждого изображения. Модель предсказывает, что все изображения – это собака с различными вероятностями.
изображение 1: 80% собака
изображение 2: 90% собака
изображение 3: 75% собака
и так далее.
Какова вероятность того, что речь идет о собаке?
Предположим, что она предсказывает кота с меньшими вероятностями, 5%, 2%, 4% … Какова вероятность того, что это кот?

Я пробовал несколько различных подходов, применяя теорему Байеса, но постоянно получаю числа, которые в сумме больше одного. Могло ли это просто быть средним?

Если вы подаете модели 20 изображений для тестирования, тогда ваш вывод должен выглядеть как массив [20x10]. Каждая строка представляет собой вероятности всех классов (в вашем случае 10). Давайте посмотрим на пример ниже, и 1-й индекс – это собака с вероятностью 0.9, так что ваша модель классифицировала это правильно. Если ваша модель классифицирует 19 раз собака – правильно и 1 раз кот – неверно, тогда точность тестирования вашей модели будет рассчитана как correct_preds / (correct_preds+wrong_preds)

[[0.0, 0.9, 0.0, 0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.0],
 [0.0, 0.8, 0.0, 0.0, 0.0, 0.1, 0.0, 0.1, 0.0, 0.0],
 ..,
 [0.0, 0.75, 0.0, 0.0, 0.0, 0.1, 0.0, 0.1, 0.05, 0.0]]

Ответ или решение

Для решения задачи комбинирования вероятностей, полученных от классификатора, необходимо рассмотреть несколько ключевых моментов, связанных с обработкой вероятностей, анализом данных и теорией вероятностей.

1. Сбор вероятностей

Вы имеете обученный классификатор, который выдает вероятности принадлежности изображений к 10 различным классам. Предположим, что вы получили 20 предсказаний для одного и того же животного. Например:

Изображение 1: 80% собака
Изображение 2: 90% собака
Изображение 3: 75% собака
…

Суммарно эти вероятности лучше всего представляют уверенность вашего классификатора о том, что данный объект является собакой.

2. Комбинирование вероятностей

Ваша задача — определить вероятности классов на основе множества наблюдений. Простой подход в данном случае — это усреднение предсказанных вероятностей. Однако, прежде чем это сделать, важно учесть несколько факторов, которые могут повлиять на итоговые вероятности.

Среднее арифметическое вероятностей

В качестве первого шага можно взять средние значения вероятностей для класса "собака" и класса "кошка":

P(собака) = (80% + 90% + 75% + ...) / 20
P(кошка) = (5% + 2% + 4% + ...) / 20

3. Рассмотрение взаимозависимости

Важно понимать, что простое усреднение может не учесть взаимозависимости между предсказаниями. Если все 20 изображений — это одно и то же животное, вы можете применить более сложный подход для исправления вероятностей. В данном случае можно воспользоваться подходом, основанным на Байесовской теореме.

Применение теоремы Байеса

При использовании теоремы Байеса вероятности могут быть скорректированы на основании априорной информации о вашей задаче. Например, если вы знаете, что все изображения принадлежат одному виду, вы можете использовать формулу:

P(собака | изображения) = (P(изображения | собака) * P(собака)) / P(изображения)

4. Проблема нормализации

Фактор, вызывающий недоумение в ваших расчетах — это нормализация вероятностей. Все рассчитанные вероятности должны складываться в 1, и если это не так, это сигнализирует о потенциальной ошибке в вашей модели или в интерпретации данных.

Чтобы проверить выпускные вероятности, вы можете нормализовать результат:

P(собака) = (Σ P(собака_i)) / (Σ P(собака_i) + Σ P(кошка_i) + ...)

5. Вывод вероятностей

После правильного комбинирования вы сможете получить скорректированные вероятности для класса "собака" и "кошка":

Вероятность, что изображение собаки: 85%
Вероятность, что изображение кошки: 3%

Заключение

Таким образом, комбинирование вероятностей от классификатора требует внимательного учета методов комбинирования, нормализации и применения теории вероятностей. Убедитесь, что ваши итоговые вероятности корректно складываются в единицу, и используйте усредненные значения для более точного понимания принадлежности изображений к классам. Этот подход обеспечит более надежные результаты в вашей задаче классификации.