Как обновить апостериорное убеждение, когда мы наблюдаем поток коррелированных данных из фиксированного, но неизвестного источника данных?

Вопрос или проблема

Я хочу построить [вероятностную] модель, которая стремится вывести истинное значение неизвестной категориальной переменной, $y \in \{1,2,…, K\}$.

У нас есть набор данных $(X,y): \mathbb{R}^d\rightarrow \{1,2,…, K\}$, и мы можем обучить классификатор, который принимает $d$-мерные данные, $X$, и оценивает выход $y$.

Теперь предположим, что $X$ связаны и все получены из фиксированного $y$. Имеется в виду, что мы наблюдаем $X^1, X^2,…., X^T,…$ с течением времени и знаем, что $y$ фиксировано для всех них.

Например:

  • Мы получаем $X^1$ (в момент времени $t=1$) и наш предварительно обученный классификатор делает предположение о $\hat{y}^1$.
  • Затем мы получаем $X^2$, и снова используем классификатор для предположения $\hat{y}^2$.
  • Затем мы получаем $X^3$, и так далее.

Таким образом, в момент времени $t=T$ у нас есть $\hat{y}^1, \hat{y}^2, …, \hat{y}^T$.

Теперь вопрос: как я могу создать модель для использования этих оценок ($\hat{y}^1, \hat{y}^2, …, \hat{y}^T$) и улучшения моего представления о истинном $y$ с течением времени, учитывая, что:

  1. размерность $d$ не мала. например, $d >50$

  2. выборки данных, $X$, не i.i.d., но все получены из фиксированного неизвестного $y$.

  3. классификатор не оптимален (просто обучен на некоторых доступных данных) и на каждом этапе дает оценку $\hat{y}^t$ для текущего $X^t$.

Я изучал некоторый материал и наткнулся на следующее, но не уверен, что из этого лучше исследовать подробнее:

  • Последовательное тестирование гипотез
  • Оптимальная остановка
  • Последовательный тест отношения вероятностей
  • Правило принятия решений HDI+ROPE: интервал высокой плотности (HDI) область практической эквивалентности (ROPE)

Или существует какая-то конкретная байесовская структура для этого?

Я думаю, что все предложенные вами варианты дадут результаты для описанной вами задачи. Кажется, у вас есть что-то вроде игральной кости, которая дает результаты в виде набросков, все непредсказуемо, но все же связано с y, и вы хотите вывести y на основе значений x. Как
скрытая марковская модель.

Часть о желании точно оценить y при каждом x и о связях x заставляет меня верить, что технология LSTM может быть полезной, если вы хотите использовать НС.

Оптимальная остановка, последовательное тестирование гипотез, последовательный тест отношения вероятностей и HDI+ROPE все подойдут для описанной вами абстрактной задачи. Пока вы не предоставите нам больше деталей о вашей задаче, например, с чем именно вы будете работать, трудно дать точное направление.

Если вы создадите LSTM, которая принимает X и делает предположение о том, какой y, и обучите ее на имеющихся у вас данных x, тогда вы получите модель предсказания, которую ищете.

Ответ или решение

Для решения задачи обновления апостериорного убеждения с учетом последовательно наблюдаемых данных, которые связаны и обусловлены фиксированной, но неизвестной категорической переменной $y \in {1,2,…, K}$, можно рассмотреть несколько подходов, включая байесовские методы и методы машинного обучения.

Анализ условий задачи

  1. Доступные данные: У вас имеется тренировочный набор данных $(X, y)$, где $X \in \mathbb{R}^d$ и $y$ — категориальная переменная. Классификатор, обученный на этих данных, может выдавать прогнозы $\hat{y}^t$ для каждого наблюдения $X^t$.

  2. Корреляция между наблюдениями: $X$ не являются независимыми и идентично распределенными (i.i.d.), так как все они исходят из фиксированной, но неизвестной переменной $y$. Это говорит о наличии какой-то структуры или зависимости между данными.

  3. Неоптимальность классификатора: Ваш текущий классификатор не оптимален, что требует от вас использования методов, которые смогут адаптировать результаты $\hat{y}^t$ для достижения точного предсказания истинного значения $y$.

Подходы и методы

1. Байесовский подход

Использование байесовских методов для последовательного обновления апостериорного распределения весьма перспективно. Начните с установления априорного распределения для $y$. По мере получения новых предсказаний $\hat{y}^1, \hat{y}^2, …, \hat{y}^T$, обновляйте апостериорное распределение с использованием теоремы Байеса. Это позволит учесть накопление информации с каждым новым наблюдением.

2. Скрытые модели Маркова (HMM)

Если ваши данные демонстрируют временные зависимости, скрытые модели Маркова могут быть полезны. HMM способны моделировать скрытые состояния (в вашем случае это $y$) и наблюдаемые данные $X$. Вы можете использовать алгоритм Баума-Велша для оценки параметров модели и алгоритм Витерби для определения наиболее вероятной последовательности скрытых состояний.

3. Рекуррентные нейронные сети (RNN) и LSTM

Если вы склоняетесь к использованию нейросетевых методов, рекуррентные нейронные сети (RNN) и их современная модификация LSTM могут успешно моделировать временные зависимости в данных. Обучите LSTM на данных, чтобы она могла прогнозировать $y$ на основании потоков $X$.

4. Sequential Probability Ratio Test (SPRT)

Этот метод позволяет проверять гипотезы на основе последовательных наблюдений. SPRT может быть полезен для определения момента, когда можно прекратить сбор данных и принять решение, когда уверенность в предсказании достигает заданного порога.

Заключение

Каждый из этих методов имеет свои преимущества и ограниченные аспекты, в зависимости от специфики задачи и доступных данных. В контексте вашего вопроса, вероятно, наиболее подходящим является байесовский подход, в частности с HMM или LSTM, в зависимости от структуры ваших данных. Оптимальный выбор зависит от контекста задачи, включая особенности данных и желаемую скорость адаптации к новым данным.

Оцените материал
Добавить комментарий

Капча загружается...