Анализ распределения вероятностей каждого признака и машинное обучение

Question 1

Хотя я знаю, что вероятностные распределения предназначены для проверки гипотез, построения доверительных интервалов и т. д., они определенно играют множество ролей в статистическом анализе.

Тем не менее, мне не очевидно, как вероятностные распределения могут быть полезны для задач машинного обучения? В алгоритмах ML ожидается, что они автоматически подберут распределения из набора данных. Мне интересно, есть ли какие-то места вероятностных распределений в более эффективном решении задач ML?

Короче говоря, как статистические методы, связанные с вероятностными распределениями, могут помочь в решении задач ML? Если да, то каким образом именно?

Question 2

Это хороший вопрос.

Мы можем рассмотреть распределение выходных данных, распределение параметров модели и распределение входных данных.

Вероятностное распределение выхода играет центральную роль в задачах классификации, где мы предполагаем, что классы следуют категориальному распределению. Мы обеспечиваем это, применяя какую-либо нормализацию, например, softmax в нейронных сетях. Затем мы минимизируем какую-либо информационно-теоретическую меру, которая основана на предсказанном распределении выхода и истинном распределении выхода, такой как потеря кросс-энтропии (X-ent) или потеря Кульбака-Лейблера (KL). В противном случае нам пришлось бы прибегать к простым потерям классификации, таким как просто MSE. Но потери X-Ent и KL обеспечивают более гладкий ландшафт потерь и, таким образом, позволяют градиентному спуску быстрее сходиться. Это также играет центральную роль в обучении с подкреплением, где мы предполагаем, что непрерывные действия, которые агент принимает, распределены по гауссовскому закону: наша модель обучает среднее $\mu$ и логарифм дисперсии $\log\sigma$ распределения действий. На каждом шаге мы действуем согласно нашей политике $p(a|s) = \mathcal{N}(\mu,\sigma)$. То же самое происходит и для категориальных действий (softmax по Q-значениям). Это позволяет нам учитывать неопределенность и моделировать исследование, что было бы невозможно, если бы мы рассматривали действие как детерминированный выход.

Мы также можем наложить распределение на параметры модели, как это делается в стохастических нейронных сетях. Веса $\omega$ задаются распределением $p(\omega|x)$. Это позволяет нам учитывать неопределенность в модели.

Когда нас интересует распределение входных данных, мы имеем дело с генеративной моделью. Здесь цель состоит в том, чтобы смоделировать процесс генерации данных для создания новых данных. Яркие подходы — это Генеративные противоборствующие сети и Вариационные автокодеры.

Question 3

Одно из непосредственных приложений вероятностных распределений в ML — это оценка предсказательной силы вашей модели. Например, если вы моделируете бинарный классификатор, вы можете использовать это для:

сравнения нескольких перспективных моделей
сравнения порогов для вашей выбранной модели

Что касается второго варианта, взгляните на следующий пример из случая, который у меня был какое-то время назад:

вы можете использовать концепцию вероятностных распределений предсказанных вероятностей модели, чтобы проверить, что в данном случае первая модель лучше определяет 0 и 1, чем другие, и имеет лучшую матрицу ошибок и более высокую чувствительность.

Еще одна метрика, которая использует эти вероятностные распределения выходов, — это метрика Колмогорова-Смирнова (статья), которая дает вам меру для насколько отделены распределения ваших положительных и отрицательных классов друг от друга:

где:

красные слева от порога — это истинные отрицательные, а красные справа от порога — ложные положительные
синие справа от порога — истинные положительные, а синие слева — ложные отрицательные

Суть в том, что чем меньше площадь перекрывающихся цветовых областей и чем больше разделение между такими распределениями, тем лучше ваша модель способна разделять классы.

Анализ распределения вероятностей каждого признака и машинное обучение

Вопрос или проблема

Ответ или решение

Анализ вероятностного распределения признаков и машинное обучение

1. Понимание вероятностной модели

2. Роль в классификационных задачах

3. Оценка и качественная интерпретация

4. Интеграция в методах глубокого обучения

5. Генеративные модели

Заключение