Как использовать μ и σ вариационного автоэнкодера с созданным пользователем z?

Question 1

По моему пониманию, VAE, в отличие от автокодировщиков, не дает вам непосредственно дискретное кодирование (латентные векторы кодов n-мерности); вместо этого он предоставляет и mu, и sigma (n-мерные вектора средних и n-мерные вектора стандартных отклонений). Затем у вас есть epsilon, который вы используете для выборки из нормального распределения с mu и sigma, чтобы создать z. Комбинируя mu, sigma и epsilon, вы получаете z, который декодируется декодером VAE. z по сути является основным кодированием.

Предположим, что мои z, mu и sigma имеют n-мерность, например, 10 (10-мерные z, mu, sigma). Я позволяю пользователю свободно выбирать/давать мне числа для 10 векторов [-a, a], скажем, a = 5. Таким образом, пользователь может свободно выбирать 10 векторов в диапазоне от -5 до 5.

Это становится моим z, которое декодируется моим декодером для генерации нового изображения.

[Основная проблема]

Мой VAE обучен на наборе данных одежды. Теперь, если я запущу кодировщик моего VAE на каждом из данных в наборе, я получу mu и sigma для каждого (не уверен, все ли это еще правильно).

Используя z, предоставленный пользователем, как я могу найти наиболее похожий из набора данных, используя кодирование VAE только mu и sigma?

Я думаю, что нужно сгенерировать z, используя mu и sigma, полученные от кодировщика VAE, но для того, чтобы сгенерировать z, мне все еще нужно сделать выборку из распределения, используя epsilon, что делает его недискретным относительно z, созданного пользователем. Это добавляет случайность, поэтому я не уверен, как я могу использовать закодированное z, чтобы найти ближайшее к z, созданному пользователем.

Question 2

Если вы обучаете VAE, кодировщик в основном параметризует вариационное апостериорное распределение $z$ при данных $x$, т.е.
$$ q(z | x) = \prod_{i=1}^{N_z} q(z_i | x) = \prod_{i=1}^{N_z} \frac{1}{\sqrt{2\pi}\sigma_i(x)} \exp \left[ -\frac{(z_i – \mu_i(x))^2}{2\sigma_i(x)^2} \right] $$
где $\mu_i(x)$ и $\sigma_i(x)$ задаются кодировщиком, а $z$ находится в $N_z$-мерном латентном пространстве.
Я бы рассматривал эту задачу так, как будто $x$ являются параметрами вероятностного распределения, а $z$ — это некоторые наблюдения, которые вы сделали.
“Ближайшее” кодирование из ваших обучающих данных $x$ будет кодированием с наивысшей вероятностью, т.е. вы вычисляете вероятность для каждой точки данных для заданного $z$, оценивая приведенное выше выражение, и берете $x$ с максимальным значением.

Логарифм вероятности обычно используется в таких сценариях, потому что он более удобен, но он эквивалентен, поскольку вероятность неотрицательна, а логарифм является монотонной функцией.

В комментариях вы упомянули использование метрики расстояния. Логарифм вероятности предоставляет хорошую интерпретацию, поскольку он дает что-то похожее на отрицательное евклидово расстояние между $\mu(x)$ и $z$, но масштабируется и сдвигается за счет членов, определяемых стандартным отклонением:

$$ \log q(z|x) = \sum_{i=1}^{N_z} \log q(z_i|x) = \sum_{i=1}^{N_z} \left[ -\frac{(z_i – \mu_i(x))^2}{2\sigma_i(x)^2} – \log \left( \sqrt{2\pi}\sigma_i(x) \right) \right] $$

Таким образом, интуитивно, максимизируя (лог-)вероятность, вы минимизируете евклидово расстояние между заданным z и кодированием $\mu(x)$ из набора обучающих данных $x$, но вы платите штрафы за наличие больших дисперсий.

(Более того, если вы делаете это таким образом, выборка $\epsilon$ не требуется.)

Как использовать μ и σ вариационного автоэнкодера с созданным пользователем z?

Вопрос или проблема

Ответ или решение

Понимание архитектуры VAE

Использование пользовательских векторов z

Заключение