Вопрос или проблема
У меня есть дата-фрейм, который выглядит примерно так:
A B C
1 2 2
2 4 3
4 8 5
9 16 7
16 32 11
22 43 14
28 55 17
34 67 20
40 79 23
A, B и C
можно считать признаками
в литературе по машинному обучению.
Я изучал оценку максимального правдоподобия для 1
переменной, предполагая гауссовское распределение.
Уравнение выглядит как-то так, где xi's
– это каждая точка данных:
Где x1, x2 .... xn
– это n точек данных, каждая из которых имеет размерность 3
. Если мы предполагаем, что p(x) является гауссовским, то мы можем использовать уравнение гауссовского нормального распределения
как:
1 признак.
Как я могу обобщить вышеуказанное уравнение нормального распределения, когда у нас больше 1 признака
, здесь у нас 3 признака?
Может кто-нибудь помочь мне написать максимальное правдоподобие для вышеуказанного дата-фрейма?
Учим ли мы mu и sigma
для каждого признака A, B и C
, всего 6 параметров, которые нужно обучить?
Если у нас есть 3 разных распределения, скажем, нормальное, экспоненциальное и так далее для столбцов A, B и C
, то как выглядит уравнение МПЛ для всего дата-фрейма?
Если мы делаем argmax уравнения 1
, нам не требуется никакая истинная база для этого. Правильно? Мы просто максимизируем уравнение?
Сначала я хотел бы прояснить. Функция максимального правдоподобия, которую вы привели, НЕ относится к “одному признаку”. По крайней мере, не имеет смысла рассматривать это как “признак”, потому что в вашем примере вы на самом деле будете оценивать функцию логарифмического правдоподобия по наблюдаемым значениям y
, а не x
. Вы не используете свои переменные в x
, чтобы объяснять что-то о y
. Результирующая оценка максимального правдоподобия для $\mu$ будет $\bar x$, выборочное среднее вашей целевой переменной y
.
Теперь, предположим, вы действительно хотите использовать x
(ваши признаки) для предсказания y
, как в случае с контролируемым обучением. Тогда, как я упомянул в ваших комментариях, вам нужно указать две вещи – предсказательную или модельную функцию, обычно обозначаемую как $\hat f(X)$, и “связующую функцию”, обозначаемую как $g$.
$\hat f(X)$ – это функция ваших предсказательных переменных, такая что:
$$g(E[Y|X]) = \hat f(X)$$
В вашем случае $E[Y | X] = \mu $, поскольку у вас нормальное распределение. Следовательно,
$$g(\mu) = \hat f(X) \rightarrow \mu = g^{-1}(\hat f(X))$$
Теперь, выбирая $\hat f(X)$, это зависит от ваших целей и от того, насколько сложно вы хотите сделать. Тем не менее, это функция, которая может принимать любое действительное число. В стандартном случае (скажем, в линейной регрессии) вы устанавливаете $\hat f(X) = B_{0} + B_{1}X_{1} + B_{2}X_{2} + B_{3}X_{3}.$ Есть и другие примеры, где запись $\hat f(X)$ невозможна или вызывает затруднения, например, в случае градиентного бустинга деревьев или глубоких нейронных сетей. Другие алгоритмы могут установить $\hat f(X) = B_{0} + h_1(x_{1}) + h_2(x_{2}) + h_3(x_{3})$, где $h_{i}$ – это гладкие функции. Это действительно зависит от того, насколько сложно вы хотите сделать, и насколько интерпретируемыми вы хотите, чтобы были ваши модели.
Что касается $g$, “связующей функции”, она почти всегда выбирается в зависимости от диапазона отклика или диапазона параметра, который вы связываете с ($\mu$ в вашем случае). В вашем случае, поскольку нормальное распределение может принимать любое действительное число, чаще всего $g$ выбирается как функция идентичности, поскольку $\hat f(X)$ уже может принимать любое действительное число. Это приводит к:
$$\mu = B_{0} + B_{1}X_{1} + B_{2}X_{2} + B_{3}X_{3}.$$
Наконец, при работе с вашей функцией правдоподобия:
$$p(Y) = constant * \prod_{i = 1}^{n} e^{\frac{-1}{2}\frac{(y_{i} – (B_{0} + B_{1}X_{1} + B_{2}X_{2} + B_{3}X_{3}))^2}{\sigma^2}} $$
Решение этого уравнения даст вам оценки методом наименьших квадратов, которые, я уверен, вы уже видели. Конечно, выбор другого $\hat f(X)$ или другой $g$ вероятно изменит все, и часто вы можете не получить красивых и простых аналитических решений, которые выходят с обычными наименьшими квадратами. Это мотивирует различные численные методы оптимизации. Однако “ингредиенты” остаются прежними.
Надеюсь, это поможет.
Ответ или решение
Как построить генеративную модель с несколькими переменными
Создание генеративной модели, которая может обрабатывать более одной переменной, требует словесного понимания различных аспектов статистики и вероятности. Рассмотрим, как применить метод максимального правдоподобия (MLE) для данных в виде фрейма, где у нас есть несколько признаков (в данном случае A, B и C).
1. Основы теории вероятностей
Максимальное правдоподобие — это метод оценки параметров статистической модели. Для многомерных переменных, такие как ваши A, B и C, мы будем использовать многомерное нормальное распределение как модель для значений, представляя их совместное распределение.
2. Формулировка задачи
Предположим, что у нас есть данные:
A B C
1 2 2
2 4 3
4 8 5
9 16 7
16 32 11
22 43 14
28 55 17
34 67 20
40 79 23
Здесь A, B и C являются признаками. Если мы предполагаем, что данные распределены по нормальному закону, то для многомерного нормального распределения, вероятность наблюдаемых данных можно выразить как:
[
p(X) = \frac{1}{(2\pi)^{k/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(X – \mu)^T \Sigma^{-1} (X – \mu)\right)
]
где:
- (X) — вектор наблюдаемых значений,
- (\mu) — вектор средних значений (матожидание),
- (\Sigma) — матрица ковариаций.
3. Оценка параметров
При применении метода максимального правдоподобия к данным в вашем примере, мы сначала должны оценить параметры:
- Средние значения ((\mu)): Это просто средние по столбцам A, B и C.
- Матрица ковариаций ((\Sigma)): Она вычисляется на основе дисперсий и ковариаций между переменными.
Таким образом, у вас будет 3 значения для среднего (по каждому из признаков) и 6 значений для элементов матрицы ковариаций (3 варианта дисперсий и 3 ковариации).
4. Предположение о разных распределениях
Если предположить, что у переменных A, B и C разные распределения (например, нормальное для A, экспоненциальное для B и равномерное для C), тогда функция правдоподобия будет выглядеть следующим образом:
[
p(A, B, C) = p(A) \cdot p(B) \cdot p(C)
]
где каждая из этих вероятностей будет вычислена на основании предполагаемого распределения.
5. Вывод о максимизации
Когда вы выполняете максимизацию логарифмической функции правдоподобия, вам не требуется истинная метка для y; вы сосредотачиваетесь на находящихся в наличии данных x. Максимизация позволяет вам получить наилучшие оценки для ваших параметров, даже без необходимости знать истинные значения.
Заключение
Строить генеративные модели с несколькими переменными требует осознания, как каждая переменная влияет на модель. Метод максимального правдоподобия предоставляет мощный инструмент для нахождения наиболее вероятных параметров ваших данных. С определением распределений, касающихся разных переменных, вы можете создавать всеобъемлющие модели, которые учитывают сложные взаимосвязи в данных, что улучшает ваше понимание и способность предсказывать.