Вопрос или проблема
В этой статье – Вариационное обучение вхождений переменных в разреженных гауссовских процессах
После уравнения (5) изложение:
Здесь, $p(\textbf{f}|\textbf{f}_m) = p(\textbf{f}|\textbf{f}_m, \textbf{y})$ верно, поскольку $\textbf{y}$ является зашумленной версией $\textbf{f}$ и из-за предположения, что любое $\textbf{z}$ условно независимо от $\textbf{f}$ при условии $\textbf{f}_m$
В вышеупомянутом объяснении затем ссылаются на сноски, где далее объясняется:
Из $p(\textbf{z}|\textbf{f}_m, \textbf{y}) = \frac{\int p(\textbf{y}|\textbf{f})p(\textbf{z}, \textbf{f}_m, \textbf{f}) d\textbf{f}}{\int p(\textbf{y}|\textbf{f})p(\textbf{z}, \textbf{f}_m, \textbf{f}) d\textbf{f}d\textbf{z}}$ и используя тот факт, что $p(\textbf{z}|\textbf{f}_m, \textbf{f}) = p(\textbf{z}|\textbf{f}_m)$, следует результат.
Мой вопрос – как сноски объясняют, почему утверждение $p(\textbf{f}|\textbf{f}_m) = p(\textbf{f}|\textbf{f}_m, \textbf{y})$ верно? Я не могу увидеть, как сноски, которые даже не содержат ни одного из терминов ($p(\textbf{f}|\textbf{f}_m)$ или $p(\textbf{f}|\textbf{f}_m, \textbf{y})$), связаны с первоначальным утверждением.
Я тоже на этом застрял, но, насколько это странно, помните, что 𝐳 условно независимо от 𝐟 при условии 𝐟𝑚, и 𝐳 – это любое шумное наблюдение, которое вы хотите, так что y включен.
Другой способ увидеть это – записать правдоподобие и совместное распределение по 𝐟 и 𝐟𝑚.
Вы могли бы подумать, что y имеет отношение к информации о 𝐟, и это так. Но если 𝐟 является преобразованием 𝐟𝑚, то вы знаете 𝐟 просто вычисляя преобразование над 𝐟𝑚.
И это не просто какое-то преобразование, чтобы совместное распределение 𝐟𝑚 и 𝐟 было нормальным (так как это GP), оно должно быть линейным преобразованием.
Ответ или решение
Вопрос, рассматриваемый в статье «Вариационное обучение вносящих переменных в разреженных гауссовских процессах», касается утверждения о том, что \( p(\mathbf{f}|\mathbf{f}_m) = p(\mathbf{f}|\mathbf{f}_m, \mathbf{y}) \). Чтобы понять это, полезно обратиться к концепциям независимости и свойствам гауссовских процессов.
### Понимание независимости
Во-первых, важно отметить, что в данной модели \(\mathbf{y}\) является зашумленной версией \(\mathbf{f}\) и вносит дополнительную информацию о процессе. Но, как указано в объяснении, любой \(\mathbf{z}\) условно независим от \(\mathbf{f}\) при условии \(\mathbf{f}_m\). Это значит, что знание \(\mathbf{y}\) не дает дополнительной информации о \(\mathbf{f}\), если уже известно \(\mathbf{f}_m\).
### Вероятностные преобразования
Формулировка в заметке касается вероятностного отношения между переменными. Рассматривая уравнение
\[
p(\mathbf{z}|\mathbf{f}_m, \mathbf{y}) = \frac{\int p(\mathbf{y}|\mathbf{f})p(\mathbf{z}, \mathbf{f}_m, \mathbf{f}) d\mathbf{f}}{\int p(\mathbf{y}|\mathbf{f})p(\mathbf{z}, \mathbf{f}_m, \mathbf{f}) d\mathbf{f} d\mathbf{z}},
\]
мы можем увидеть, как оказывается, что \(\mathbf{z}\) не влияет на распределение \(\mathbf{f}\) при фиксированном \(\mathbf{f}_m\), что в свою очередь поддерживает равенство \( p(\mathbf{f}|\mathbf{f}_m) = p(\mathbf{f}|\mathbf{f}_m, \mathbf{y}) \).
### Объяснение через совместные распределения
Для дальнейшего понимания, возможно, стоит рассмотреть совместное распределение \(\mathbf{f}\) и \(\mathbf{f}_m\). Поскольку \(\mathbf{f}\) является функциональной зависимостью от \(\mathbf{f}_m\) в контексте гауссовских процессов (например, \(\mathbf{f}\) может быть линейной трансформацией \(\mathbf{f}_m\)), мы понимаем, что наличие \(\mathbf{y}\) — как шумовой переменной — не добавляет новой информации о \(\mathbf{f}\), если уже известна корреляция и распределение через \(\mathbf{f}_m\).
### Заключение
Таким образом, равенство \( p(\mathbf{f}|\mathbf{f}_m) = p(\mathbf{f}|\mathbf{f}_m, \mathbf{y}) \) следует напрямую из предположения о условной независимости \(\mathbf{z}\) от \(\mathbf{f}\) при задании \(\mathbf{f}_m\). Знание о зашумленных наблюдениях \(\mathbf{y}\) не имеет значения для оценки \(\mathbf{f}\), как только у нас есть информация о \(\mathbf{f}_m\). Эта кроме того показывает, что под моделью гауссовского процесса предсказания сильно зависят от структуры зависимостей между переменными, что соответствует реалиям машинного обучения и статистики.
В конечном итоге, это утверждение иллюстрирует глубже изучаемые свойства разреженных гауссовских процессов и их применения в вычислительной статистике и машинном обучении, подчеркивая важность понимания распределений и независимости в построении эффективных моделей.