Как учесть неопределенность коэффициентов модели в интервале прогнозирования множественной линейной регрессии

Question 1

Я имею дело с моделированием небольших экспериментальных наборов данных. Поскольку большинство экспериментальных работ не генерируют тысячи образцов, а скорее всего лишь несколько, мне нужно быть изобретательным в том, как справляться с этим небольшим количеством данных (скажем, 10-20). Я разрабатывал хороший каркас для этого, и на данный момент мне интересно сгенерировать погрешности с предсказанными значениями.

В общих чертах, вот что происходит в каркасе (например, при применении многолинейной модели):

Создайте ансамбль из $N$ наборов данных.
На каждом наборе данных регрессия порождает (линейную) модель, как дано в уравнении 1 ниже. Это порождает $N$ значений для каждого из коэффициентов $\beta$.
Рассчитывается среднее для каждого из трех наборов $\beta$. (Среднее также может быть другой функцией, но пока предположим, что это среднее)
Эти три средних $\beta$ являются коэффициентами модели, которые будут использоваться (снова уравнение 1).
Цель: найти предсказательный интервал (PI) для модели в уравнении 1, учитывая тот факт, что коэффициенты $\beta$ рассчитаны из числовых распределений.

Так, например, возьмем следующую модель множественной линейной регрессии:
$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \tag{1}
$$
и я ищу алгебраическое уравнение для численного вычисления предсказательного интервала (PI) для нового предсказания $y_0$ (Доверительный интервал также был бы приемлем, поскольку он связан с PI).

Пока что мои поиски смогли предоставить мне только ответы, касающиеся статистической природы набора данных ($x_i$). Они предоставляют мне компонент ошибки:
$$
\hat{V}_f=s^2\cdot\mathbf{x_0}\cdot\mathbf{(X^TX)^{-1}}\cdot\mathbf{x_0^T} + s^2 \tag{2}
$$
который можно использовать для расчета PI через:
$$
y=y_0 \pm t_{\alpha/2,n-k}\cdot\sqrt{\hat{V}_f} \tag{3}
$$

В отличие от этих примеров, каждый из коэффициентов модели ($\beta_0, \beta_1$ и $\beta_2$) в данном случае имеют оценку погрешности (извлеченную с помощью бутстреппинга из распределения, причем распределения являются числовыми, а не аналитическими, и распределения специфичны для каждого из трех коэффициентов). Существует ли способ учесть неопределенность $\beta_i$ (т.е. “оценки погрешности”) при расчете PI и CI?

Примечание:
Я знаю, можно создать ансамбль различных экземпляров модели с $\beta_i$, выбранными из их соответствующих распределений, и на основе распределения полученного $y_0$ рассчитать CI $y_0$, но это не очень эффективно с точки зрения вычислений и порождает множество других проблем, которых я хотел бы избежать.

Question 2

Одно из возможных решений — бейсовская линейная регрессия. Бейсовская линейная регрессия оценивает апостериорное распределение для каждого коэффициента. Из этого апостериорного распределения можно вычислить доверительный интервал.

Как учесть неопределенность коэффициентов модели в интервале прогнозирования множественной линейной регрессии

Вопрос или проблема

Ответ или решение

Исходная задача

Прогнозный интервал

Включение неопределенности коэффициентов

Предложенное решение

Заключение