Вопрос или проблема
Я хочу построить [вероятностную] модель, которая стремится вывести истинное значение неизвестной категориальной переменной, $y \in \{1,2,…, K\}$.
У нас есть набор данных $(X,y): \mathbb{R}^d\rightarrow \{1,2,…, K\}$, и мы можем обучить классификатор, который принимает $d$-мерные данные, $X$, и оценивает выход $y$.
Теперь предположим, что $X$ связаны и все получены из фиксированного $y$. Имеется в виду, что мы наблюдаем $X^1, X^2,…., X^T,…$ с течением времени и знаем, что $y$ фиксировано для всех них.
Например:
- Мы получаем $X^1$ (в момент времени $t=1$) и наш предварительно обученный классификатор делает предположение о $\hat{y}^1$.
- Затем мы получаем $X^2$, и снова используем классификатор для предположения $\hat{y}^2$.
- Затем мы получаем $X^3$, и так далее.
Таким образом, в момент времени $t=T$ у нас есть $\hat{y}^1, \hat{y}^2, …, \hat{y}^T$.
Теперь вопрос: как я могу создать модель для использования этих оценок ($\hat{y}^1, \hat{y}^2, …, \hat{y}^T$) и улучшения моего представления о истинном $y$ с течением времени, учитывая, что:
-
размерность $d$ не мала. например, $d >50$
-
выборки данных, $X$, не i.i.d., но все получены из фиксированного неизвестного $y$.
-
классификатор не оптимален (просто обучен на некоторых доступных данных) и на каждом этапе дает оценку $\hat{y}^t$ для текущего $X^t$.
Я изучал некоторый материал и наткнулся на следующее, но не уверен, что из этого лучше исследовать подробнее:
- Последовательное тестирование гипотез
- Оптимальная остановка
- Последовательный тест отношения вероятностей
- Правило принятия решений HDI+ROPE: интервал высокой плотности (HDI) область практической эквивалентности (ROPE)
Или существует какая-то конкретная байесовская структура для этого?
Я думаю, что все предложенные вами варианты дадут результаты для описанной вами задачи. Кажется, у вас есть что-то вроде игральной кости, которая дает результаты в виде набросков, все непредсказуемо, но все же связано с y, и вы хотите вывести y на основе значений x. Как
скрытая марковская модель.
Часть о желании точно оценить y при каждом x и о связях x заставляет меня верить, что технология LSTM может быть полезной, если вы хотите использовать НС.
Оптимальная остановка, последовательное тестирование гипотез, последовательный тест отношения вероятностей и HDI+ROPE все подойдут для описанной вами абстрактной задачи. Пока вы не предоставите нам больше деталей о вашей задаче, например, с чем именно вы будете работать, трудно дать точное направление.
Если вы создадите LSTM, которая принимает X и делает предположение о том, какой y, и обучите ее на имеющихся у вас данных x, тогда вы получите модель предсказания, которую ищете.
Ответ или решение
Для решения задачи обновления апостериорного убеждения с учетом последовательно наблюдаемых данных, которые связаны и обусловлены фиксированной, но неизвестной категорической переменной $y \in {1,2,…, K}$, можно рассмотреть несколько подходов, включая байесовские методы и методы машинного обучения.
Анализ условий задачи
-
Доступные данные: У вас имеется тренировочный набор данных $(X, y)$, где $X \in \mathbb{R}^d$ и $y$ — категориальная переменная. Классификатор, обученный на этих данных, может выдавать прогнозы $\hat{y}^t$ для каждого наблюдения $X^t$.
-
Корреляция между наблюдениями: $X$ не являются независимыми и идентично распределенными (i.i.d.), так как все они исходят из фиксированной, но неизвестной переменной $y$. Это говорит о наличии какой-то структуры или зависимости между данными.
-
Неоптимальность классификатора: Ваш текущий классификатор не оптимален, что требует от вас использования методов, которые смогут адаптировать результаты $\hat{y}^t$ для достижения точного предсказания истинного значения $y$.
Подходы и методы
1. Байесовский подход
Использование байесовских методов для последовательного обновления апостериорного распределения весьма перспективно. Начните с установления априорного распределения для $y$. По мере получения новых предсказаний $\hat{y}^1, \hat{y}^2, …, \hat{y}^T$, обновляйте апостериорное распределение с использованием теоремы Байеса. Это позволит учесть накопление информации с каждым новым наблюдением.
2. Скрытые модели Маркова (HMM)
Если ваши данные демонстрируют временные зависимости, скрытые модели Маркова могут быть полезны. HMM способны моделировать скрытые состояния (в вашем случае это $y$) и наблюдаемые данные $X$. Вы можете использовать алгоритм Баума-Велша для оценки параметров модели и алгоритм Витерби для определения наиболее вероятной последовательности скрытых состояний.
3. Рекуррентные нейронные сети (RNN) и LSTM
Если вы склоняетесь к использованию нейросетевых методов, рекуррентные нейронные сети (RNN) и их современная модификация LSTM могут успешно моделировать временные зависимости в данных. Обучите LSTM на данных, чтобы она могла прогнозировать $y$ на основании потоков $X$.
4. Sequential Probability Ratio Test (SPRT)
Этот метод позволяет проверять гипотезы на основе последовательных наблюдений. SPRT может быть полезен для определения момента, когда можно прекратить сбор данных и принять решение, когда уверенность в предсказании достигает заданного порога.
Заключение
Каждый из этих методов имеет свои преимущества и ограниченные аспекты, в зависимости от специфики задачи и доступных данных. В контексте вашего вопроса, вероятно, наиболее подходящим является байесовский подход, в частности с HMM или LSTM, в зависимости от структуры ваших данных. Оптимальный выбор зависит от контекста задачи, включая особенности данных и желаемую скорость адаптации к новым данным.