Как построить генеративную модель, когда у нас есть более одной переменной

Вопрос или проблема

У меня есть дата-фрейм, который выглядит примерно так:

A   B   C
1   2   2
2   4   3
4   8   5
9   16  7
16  32  11
22  43  14
28  55  17
34  67  20
40  79  23

A, B и C можно считать признаками в литературе по машинному обучению.
Я изучал оценку максимального правдоподобия для 1 переменной, предполагая гауссовское распределение.

Уравнение выглядит как-то так, где xi's – это каждая точка данных:

введите описание изображения здесь

Где x1, x2 .... xn – это n точек данных, каждая из которых имеет размерность 3. Если мы предполагаем, что p(x) является гауссовским, то мы можем использовать уравнение гауссовского нормального распределения как:

введите описание изображения здесь

1 признак.

Как я могу обобщить вышеуказанное уравнение нормального распределения, когда у нас больше 1 признака, здесь у нас 3 признака? Может кто-нибудь помочь мне написать максимальное правдоподобие для вышеуказанного дата-фрейма?

Учим ли мы mu и sigma для каждого признака A, B и C, всего 6 параметров, которые нужно обучить?

Если у нас есть 3 разных распределения, скажем, нормальное, экспоненциальное и так далее для столбцов A, B и C, то как выглядит уравнение МПЛ для всего дата-фрейма?

Если мы делаем argmax уравнения 1, нам не требуется никакая истинная база для этого. Правильно? Мы просто максимизируем уравнение?

Сначала я хотел бы прояснить. Функция максимального правдоподобия, которую вы привели, НЕ относится к “одному признаку”. По крайней мере, не имеет смысла рассматривать это как “признак”, потому что в вашем примере вы на самом деле будете оценивать функцию логарифмического правдоподобия по наблюдаемым значениям y, а не x. Вы не используете свои переменные в x, чтобы объяснять что-то о y. Результирующая оценка максимального правдоподобия для $\mu$ будет $\bar x$, выборочное среднее вашей целевой переменной y.

Теперь, предположим, вы действительно хотите использовать x (ваши признаки) для предсказания y, как в случае с контролируемым обучением. Тогда, как я упомянул в ваших комментариях, вам нужно указать две вещи – предсказательную или модельную функцию, обычно обозначаемую как $\hat f(X)$, и “связующую функцию”, обозначаемую как $g$.

$\hat f(X)$ – это функция ваших предсказательных переменных, такая что:

$$g(E[Y|X]) = \hat f(X)$$

В вашем случае $E[Y | X] = \mu $, поскольку у вас нормальное распределение. Следовательно,

$$g(\mu) = \hat f(X) \rightarrow \mu = g^{-1}(\hat f(X))$$

Теперь, выбирая $\hat f(X)$, это зависит от ваших целей и от того, насколько сложно вы хотите сделать. Тем не менее, это функция, которая может принимать любое действительное число. В стандартном случае (скажем, в линейной регрессии) вы устанавливаете $\hat f(X) = B_{0} + B_{1}X_{1} + B_{2}X_{2} + B_{3}X_{3}.$ Есть и другие примеры, где запись $\hat f(X)$ невозможна или вызывает затруднения, например, в случае градиентного бустинга деревьев или глубоких нейронных сетей. Другие алгоритмы могут установить $\hat f(X) = B_{0} + h_1(x_{1}) + h_2(x_{2}) + h_3(x_{3})$, где $h_{i}$ – это гладкие функции. Это действительно зависит от того, насколько сложно вы хотите сделать, и насколько интерпретируемыми вы хотите, чтобы были ваши модели.

Что касается $g$, “связующей функции”, она почти всегда выбирается в зависимости от диапазона отклика или диапазона параметра, который вы связываете с ($\mu$ в вашем случае). В вашем случае, поскольку нормальное распределение может принимать любое действительное число, чаще всего $g$ выбирается как функция идентичности, поскольку $\hat f(X)$ уже может принимать любое действительное число. Это приводит к:

$$\mu = B_{0} + B_{1}X_{1} + B_{2}X_{2} + B_{3}X_{3}.$$

Наконец, при работе с вашей функцией правдоподобия:

$$p(Y) = constant * \prod_{i = 1}^{n} e^{\frac{-1}{2}\frac{(y_{i} – (B_{0} + B_{1}X_{1} + B_{2}X_{2} + B_{3}X_{3}))^2}{\sigma^2}} $$

Решение этого уравнения даст вам оценки методом наименьших квадратов, которые, я уверен, вы уже видели. Конечно, выбор другого $\hat f(X)$ или другой $g$ вероятно изменит все, и часто вы можете не получить красивых и простых аналитических решений, которые выходят с обычными наименьшими квадратами. Это мотивирует различные численные методы оптимизации. Однако “ингредиенты” остаются прежними.

Надеюсь, это поможет.

Ответ или решение

Как построить генеративную модель с несколькими переменными

Создание генеративной модели, которая может обрабатывать более одной переменной, требует словесного понимания различных аспектов статистики и вероятности. Рассмотрим, как применить метод максимального правдоподобия (MLE) для данных в виде фрейма, где у нас есть несколько признаков (в данном случае A, B и C).

1. Основы теории вероятностей

Максимальное правдоподобие — это метод оценки параметров статистической модели. Для многомерных переменных, такие как ваши A, B и C, мы будем использовать многомерное нормальное распределение как модель для значений, представляя их совместное распределение.

2. Формулировка задачи

Предположим, что у нас есть данные:

A   B   C
1   2   2
2   4   3
4   8   5
9   16  7
16  32  11
22  43  14
28  55  17
34  67  20
40  79  23

Здесь A, B и C являются признаками. Если мы предполагаем, что данные распределены по нормальному закону, то для многомерного нормального распределения, вероятность наблюдаемых данных можно выразить как:

[
p(X) = \frac{1}{(2\pi)^{k/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(X – \mu)^T \Sigma^{-1} (X – \mu)\right)
]

где:

  • (X) — вектор наблюдаемых значений,
  • (\mu) — вектор средних значений (матожидание),
  • (\Sigma) — матрица ковариаций.

3. Оценка параметров

При применении метода максимального правдоподобия к данным в вашем примере, мы сначала должны оценить параметры:

  1. Средние значения ((\mu)): Это просто средние по столбцам A, B и C.
  2. Матрица ковариаций ((\Sigma)): Она вычисляется на основе дисперсий и ковариаций между переменными.

Таким образом, у вас будет 3 значения для среднего (по каждому из признаков) и 6 значений для элементов матрицы ковариаций (3 варианта дисперсий и 3 ковариации).

4. Предположение о разных распределениях

Если предположить, что у переменных A, B и C разные распределения (например, нормальное для A, экспоненциальное для B и равномерное для C), тогда функция правдоподобия будет выглядеть следующим образом:

[
p(A, B, C) = p(A) \cdot p(B) \cdot p(C)
]

где каждая из этих вероятностей будет вычислена на основании предполагаемого распределения.

5. Вывод о максимизации

Когда вы выполняете максимизацию логарифмической функции правдоподобия, вам не требуется истинная метка для y; вы сосредотачиваетесь на находящихся в наличии данных x. Максимизация позволяет вам получить наилучшие оценки для ваших параметров, даже без необходимости знать истинные значения.

Заключение

Строить генеративные модели с несколькими переменными требует осознания, как каждая переменная влияет на модель. Метод максимального правдоподобия предоставляет мощный инструмент для нахождения наиболее вероятных параметров ваших данных. С определением распределений, касающихся разных переменных, вы можете создавать всеобъемлющие модели, которые учитывают сложные взаимосвязи в данных, что улучшает ваше понимание и способность предсказывать.

Оцените материал
Добавить комментарий

Капча загружается...