Что именно представляет собой истинное распределение в задачах машинного обучения?

Содержание

Вопрос или проблема
Ответ или решение
Определение истинного распределения
Роль истинного распределения в машинном обучении
Различие между эмпирическим и обобщающим результатом
Понимание $$P(x,y)$$ и его отличие от $$P(y)$$
Заключение

Вопрос или проблема

Я определяю задачу классификации как задачу вычисления функции $h$, которая аппроксимирует функцию $f$, классифицирующую данные. Аппроксимация вычисляется на основе набора обучающих образцов и их классификаций по $f$ и обучения модели на этом наборе данных. Можно сказать, что обучающий набор “описывается” $f$ в некотором смысле.

Для обучения модели я сейчас пытаюсь определить, что такое ошибка и потеря. В книге “Искусственный интеллект: современный подход” на стр. 688 эмпирическая потеря (которая является обучающей потерей, как я понимаю) определяется следующим образом:

$$
\sum_{(x,y) \in E}L(y,h(x))\frac{1}{N}
$$

$E$ — это обучающий набор, а $N$ — это количество образцов в обучающем наборе. Другими словами, эмпирическая потеря — это мера того, насколько “далеко” каждое предсказание обучающего образца от истинной метки. Мы получаем эту общую потерю, суммируя все значения потерь для каждого обучающего образца и усредняя их.

Согласно этой дефиниции я бы определил обобщающую потерю как меру того, насколько “далеко” каждое предсказание неизвестного образца от истинной метки. Это обычно делается с помощью тестового набора $T$.

$$
\sum_{(x,y) \in T}L(y,h(x))\frac{1}{N}
$$

В “Искусственный интеллект: современный подход” на стр. 688 представлено более общее определение:

$$
\sum_{(x,y) \in \mathcal{E}}L(y,h(x))P(x,y)
$$

$\mathcal{E}$ — это множество всех возможных примеров ввода-вывода, а $P(x,y)$ берется из вероятностного распределения $\textbf{P}(X,Y)$.

Насколько я понимаю, $P(x,y)$ — это вероятность того, что $x$ помечен как $y$. В задаче классификации $\textbf{P}(X,Y)$ как истинное распределение содержит вероятность $1$, если $y$ — это правильная метка для $x$, и $0$ в противном случае для каждой возможной пары $(x,y)$. Но в случае, когда $P(x,y) = 0$, обобщающая потеря всегда была бы $0$, так что, похоже, я что-то неправильно понял.

Правка: У меня действительно было что-то неправильное в понимании вероятностных распределений в этом контексте, но я все еще запутан в обозначении $P(x,y)$ третьего определения.

Когда мы говорим о распределении какой-то задачи, мы говорим о

a) вероятностях $P(x,y)$ образцов данных $(x,y)$ или

b) вероятностях $P(y)$ определенных классов $y$?

Допустим, у нас есть задача, представленная следующим набором данных:

$$\{(1,Собака), (2,Собака), (3,Кошка), (4,Кошка), (5,Собака)\}$$

В этом случае согласно a) у нас будет $P(1,Собака)=0.2$, а согласно b) у нас будет $P(1,Собака)=0.6$.

Так что мой вопрос будет следующим: Почему $x$ включен в $P(x,y)$ в третьем определении и имеет ли это значение?

Ответ или решение

Вопрос о том, что такое истинное распределение (true distribution) в задачах машинного обучения, является ключевым для понимания работы алгоритмов и их возможностей по обобщению. В этом ответе я постараюсь подробно рассмотреть концепцию истинного распределения, его связь с эмпирическим и обобщающим результатом, а также роль, которую оно играет в процессе обучения модели.

Определение истинного распределения

Истинное распределение (обозначаемое как $$\mathbf{P}(X, Y)$$) представляет собой вероятность возникновения пар входных данных ($$X$$) и соответствующих выходных значений ($$Y$$) в реальном мире. Это распределение отражает все возможные сочетания данных и их меток, как мы можем их определить на основе определённой задачи.

Для каждой пары $$(x, y)$$, где $$x$$ — это входные данные (например, числовые характеристики объекта), а $$y$$ — метка класса (например, результат классификации), истинное распределение показывает, насколько вероятно, что объект $$x$$ будет иметь метку $$y$$. Таким образом:

$$P(x, y)$$ — это вероятность того, что объект $$x$$ принадлежит классу $$y$$.

Роль истинного распределения в машинном обучении

В процессе обучения модели мы изначально работаем с конечным набором данных (обучающим набором), который описывает истинное распределение. Когда мы оцениваем производительность модели, мы хотим понять, как хорошо она может обобщать правила, полученные из обучающей выборки, на новых данных, полученных из того же истинного распределения.

Различие между эмпирическим и обобщающим результатом

Эмпирическая ошибка (или потеря), которую вы упомянули, измеряется на обучающем наборе данных и представляет собой среднее значение функции потерь для всех примеров в обучающем наборе. Формула, которая это описывает:

$$
\text{Empirical Loss} = \frac{1}{N} \sum_{(x, y) \in E} L(y, h(x))
$$

где $E$ — обучающий набор, $N$ — количество примеров в $E$, а $L(y, h(x))$ — функция потерь между истинным выходом $$y$$ и предсказанным выходом $$h(x)$$.

Обобщающая ошибка, с другой стороны, рассматривает множество всех возможных пар $(x, y)$ в вопросе. Эта ошибка может быть рассчитана по всем возможным звездочкам, учитывая истинное распределение:

$$
\text{Generalization Loss} = \sum_{(x, y) \in \mathcal{E}} L(y, h(x)) P(x, y)
$$

где $\mathcal{E}$ представляет множество всех возможных входных и выходных данных.

Понимание $$P(x,y)$$ и его отличие от $$P(y)$$

Теперь, касаясь вашего вопроса о том, что именно представляют $P(x,y)$ и как это отличается от $P(y)$:

a) $$P(x,y)$$ измеряет вероятность конкретной пары — определённого ввода $$x$$ и его метки $$y$$. Это важно, потому что в каждом конкретном случае, где узнаем $$x$$, нам нужно знать, насколько вероятно, что он будет ассоциирован с $$y$$.
b) $$P(y)$$ показывает общее распределение меток и не даёт информации о зависимости между конкретными входными данными и выбранными метками.

Возвращаясь к вашему примеру, если у нас есть набор данных ${(1,Dog), (2,Dog), (3,Cat), (4,Cat), (5,Dog)}$, тогда:

Для a) мы можем сказать, что $P(1,Dog) = 0.2$ (так как у нас 1 из 5 случаев).
Для b) $P(Dog) = 0.6$ (так как 3 из 5 случаев $Dog$).

Заключение

Истинное распределение ($\mathbf{P}(X, Y)$) в контексте машинного обучения является основным понятием, которое связывает теорию вероятностей с практическим применением моделей для классификации. Понимание истинного распределения и знание разницы между вероятностями конкретных пар $$P(x, y)$$ и вероятностями классов $$P(y)$$ важно для правильного выполнения задач машинного обучения и оптимизации работы ваших моделей.

Если у вас возникли дополнительные вопросы или вам нужны разъяснения по другим аспектам теории вероятностей и машинного обучения, не стесняйтесь задавать их!