Модель Пуассона с переизбыточностью

Вопрос или проблема

Я работаю с набором данных $X$ (длиной $N$) счетных данных, который выглядит следующим образом:

введите описание изображения здесь

Я разработал статистическую модель, которую можно улучшить, поэтому я прошу любые предложения, например, разные вероятности или выбор приоритета, другой подход, что угодно…

Моя модель

Я пытаюсь получить параметры правдоподобия данных, чтобы получить апостериорную предсказательную плотностную функцию, доверительные интервалы и так далее. Предположим, я хочу смоделировать генеративный процесс данных при заданных параметрах, $f(X|\theta)$

Эти данные показывают большое переизмерение ($\bar X << var(X)$), следовательно, вероятность Пуассона, $f(X|\lambda) \sim \mathcal{Poisson}(\lambda)$, не является хорошим выбором.

Читая литературу о счетных данных с переизмерением, я решил смоделировать $f(X|\lambda)$ как распределение негативного бинома, следовательно, $f(X|\lambda) \sim \mathcal NB(r, p)$

Оценка параметров

Чтобы не закончить с очень сложной настройкой, я выполнил байесовскую оценку гиперпараметра $p$, позволяя $r$ быть вычисленным из данных: в распределении негативного бинома, $r$ связан с первыми и вторыми моментами распределения следующим образом:

$
r = \frac{\mu^2}{\sigma^2 – \mu}, \text то
$

$
\hat r = \frac{\bar X^2}{var(X) – \bar X}
$

Вся настройка такова:

  • Вероятность: $f(X|p) = \mathcal NB(\hat r, p)$
  • Приоритет: $f(p) = \mathcal Beta (0, 0)$ (неинформативный, неправильный приоритет)
  • Апостериорный: $f(p|X) = \mathcal Beta (0 + \hat rN, 0 + \sum X)$

что дало следующую апостериорную предсказательную распределение:

введите описание изображения здесь

Первые и вторые моменты предсказательного апостериорного распределения очень близки к данным (я позволил данным иметь огромное влияние на постериоры, так как я выбрал неинформативный приоритет). Также оценка точки апостериорного предсказания (с использованием $\mu_p$) не отличается от усредненного предсказательного апостериорного распределения по всем возможным значениям $p$.

Еще раз, есть ли какие-либо предложения по улучшению?

ИСПРАВЛЕНИЕ

Что насчет нулевоотрезанного распределения негативного бинома?

Один из вариантов – оценить непараметрическую функцию. Вместо того, чтобы предполагать функциональную форму данных, используйте что-то вроде оценки плотности по ядру (KDE) для оценки функции плотности вероятности.

Другой вариант – бутстреп-выборка для получения доверительных интервалов и другой статистики.

Ответ или решение

Модель Пуассона с переизбыточностью: Подходы и улучшения

Работа с набором данных, в котором присутствуют счетные величины, требует особого внимания к выбору статистической модели. В данном случае необходимо учитывать, что ваши данные демонстрируют значительную переизбыточность (где среднее значение значительно меньше дисперсии), что делает использование стандартной модели Пуассона нецелесообразным. Рассмотрим, как можно улучшить вашу модель с помощью различных подходов.

1. Выбор подходящей модели

Вы уже выбрали использование негативного бинарного распределения (Negative Binomial), что является обоснованным подходом для учета переизбыточности. Это распределение предлагает два параметра: (r) и (p), причем вы можете оценивать (p) с помощью байесовского подхода, а (r) рассчитывать на основе первых двух моментов данных.

Вывод о том, что распределение данных составляет:

[
f(X|p) = \mathcal{NB}(\hat{r}, p)
]

действительно является зеркалом переизбыточных данных, так как негативное бинарное распределение может моделировать более высокий уровень вариации.

2. Параметрическая и непараметрическая оценка

2.1 Непараметрические методы

В дополнение к вашей текущей модели, рассмотрите возможность использования непараметрического подхода, такого как оценка плотности с помощью ядра (Kernel Density Estimation, KDE). КДЕ позволяет оценить плотность распределения ваших данных без предположений о его форме, что может быть особенно полезно, когда данные имеют сложные распределения.

2.2 Бутстрэпа

Использование бутстрэпа также может помочь в получении доверительных интервалов для ваших параметров. Этот метод позволяет оценить нестандартные статистики, ошибки оценки и другие характеристики, что может повысить надежность ваших результатов.

3. Обработка нулевых значений

Как вы упомянули, стоит также рассмотреть нулевое-транспонированное негативное бинарное распределение. Это может быть полезным, если ваши данные содержат большое количество нулей, что также довольно часто встречается в счетных данных. Нулевое-транспонированное распределение исключает возможность наблюдения нуля, что может улучшить соответствие модели реальному распределению данных.

4. Проверка моделей

Важно проводить сравнительный анализ полученных моделей. Вы можете использовать такие методы, как кросс-валидация и критерии информации (AIC, BIC) для выбора наилучшей модели, которая соответствует вашим данным. Также желательно проводить графическую диагностику остатков, чтобы выявить любые систематические ошибки.

Заключение

Ваша текущая модель на основе негативного бинарного распределения уже является хорошим началом, однако дополнение непараметрическими методами и модификация распределения для учета нулевых значений может значительно улучшить качество модели. Важно также учитывать доступные методы для проверки и выбора моделей, чтобы убедиться в надежности ваших выводов. Настоятельно рекомендуется регулярное обновление знаний в области статистического моделирования, чтобы оставаться в курсе последних методов и подходов.

Если у вас есть дальнейшие вопросы или вам потребуется помощь, не стесняйтесь обращаться.

Оцените материал
Добавить комментарий

Капча загружается...