Есть ли безопасный и простой способ оценить стандартное отклонение для следующего подмножества?

Вопрос или проблема

В случае, если я получаю только стандартное отклонение от датчика значения $v$ (которое, кстати, нормально распределено) каждые 4 минуты, но мне нужно предоставить стандартное отклонение $\sigma$ каждые 15 минут, есть ли безопасный способ это сделать.

В голову пришли две мысли:

1) Один безопасный способ – это получить среднее, сгенерировать возможные значения, используя стандартное отклонение 4-минутного интервала для 15-минутного периода (15*60 значений). Рассчитать $\sigma$ для этого периода.

2) Альтернативно можно наивно оценить значение $\sigma$ следующего временного интервала, основываясь на двух предыдущих значениях. Например, использовать \sigma_{20:04:00} и \sigma_{20:08:00} стандартные отклонения, чтобы оценить \sigma_{20:12:00}.

В случае, если стандартное отклонение увеличивается/уменьшается в предыдущих случаях \sigma_1 и \sigma_2, оно будет увеличиваться/уменьшаться в следующем временном интервале на абсолютное значение \sigma_1\sigma_2.

Первый метод может быть трудоемким/вычислительным по сравнению со вторым методом. Хотя второй метод может страдать от недостаточной точности.

Редактирование 16.04: Поскольку я ограничен в количестве данных, я предпочел бы использовать только последнее стандартное отклонение и никакие средние данные.

Редактирование 23.04: Есть еще один способ, который приводит меня к результату, очень близкому к первому способу решения задачи.

Пусть $\sigma_i$ основано на $n$ наблюдениях, тогда $\sigma_{i+1}$ основано на $k$ наблюдениях, и $k > n$. Тогда
$\sigma^2_{i+1} = \frac{(n-1) * \sigma^2_i * \frac{k}{n}}{k-1}$.

Преимущество в данном случае в том, что вы не имеете дело со средним значением. Я предполагаю, что это решение работает хорошо только для нормально распределенных значений.

В основном, два метода, которые вы предлагаете, одинаковы.

Первый более вычислительно затратен, но они одинаковы.

В первом методе вы вычисляете $\sigma$, генерируя возможные значения случайной переменной с уже имеющимся таким же $\sigma$, которое у вас есть исторически. Это то же самое, что и вычисление $\sigma$ по всем историческим данным, которые у вас есть.

Во втором методе вы делаете оценку с ограниченными данными; это правильный способ, если у вас нет достаточного количества данных для оценки модели GARCH.

Модель GARCH – это статистическая модель для временных рядов, которая описывает дисперсию текущей ошибки или иновации как функцию фактических значений предыдущих временных периодов.

Это означает:
$\sigma_t^2 = w+\alpha_1\epsilon_{t-1}^2+…+\alpha_q\epsilon_{t-q}^2+\beta_1\sigma_{t-1}^2+…+\beta_p\epsilon_{t-p}^2$.

Эта модель требует достаточного количества данных и знаний по анализу временных рядов. Из двух предложенных вами вариантов я бы выбрал второй с максимальным возможным количеством данных.

Ответ или решение

Для оценки стандартного отклонения (\sigma) для следующего интервала времени на основе стандартного отклонения, получаемого каждую четвертую минуту, можно использовать несколько методов. Базируясь на вашем запросе, я предложу наиболее приемлемые подходы.

Метод 1: Генерация возможных значений

Первый подход заключается в том, чтобы создать набор возможных значений для 15-минутного интервала, основываясь на стандартном отклонении, получаемом каждые 4 минуты. Если предположить, что значения нормально распределены, вы можете сгенерировать 15 минут * 60 секунд интервал = 900 значений. Это может быть выполнено, используя следующее:

  1. Используйте текущее стандартное отклонение (\sigma_{\text{4min}}) для генерации случайных значений.
  2. Рассчитайте стандартное отклонение для сгенерированных данных, чтобы получить оценку (\sigma) для 15-минутного интервала.

Этот подход довольно точен, но требует значительных вычислительных ресурсов и времени.

Метод 2: Линейная интерполяция на основе предыдущих значений

Второй метод включает использование стандартных отклонений (\sigma_1) и (\sigma_2) из предыдущих интервалов для оценки (\sigma) следующего интервала. Можно использовать простую линейную интерполяцию:

[
\sigma_{\text{next}} = \sigma_2 + \left( \sigma_2 – \sigma_1 \right)
]

Или, если стандартные отклонения растут или уменьшаются, можно использовать:

[
\sigma_{\text{next}} = \sigma_2 + \left| \sigma_2 – \sigma_1 \right|
]

Этот метод быстро выполняется и требует минимальных вычислений, однако, он может быть менее точным, особенно если волатильность изменяется неожиданно.

Метод 3: Коррекция для разных объемов выборки

Вы упомянули еще одну возможность, которая включает корректировку стандартного отклонения с помощью объема наблюдений:

[
\sigma^2{\text{next}} = \frac{(n-1) * \sigma^2{\text{current}} * \frac{k}{n}}{k-1}
]

где (\sigma_{\text{current}}) – это стандартное отклонение на основе текущего объема данных (n), а (k) – объем наблюдений для следующего интервала. Этот подход эффективен и позволяет избегать использования среднего значения.

Заключение

Ваш выбор зависит от доступных вычислительных ресурсов и необходимости в точности. Если данные имеют нормальное распределение и вам необходимо обеспечить высокую точность, метод генерации случайных значений будет наиболее надежным, хотя и требует больше времени. Если же важна скорость, то интерполяция стандартных отклонений из предыдущих интервалов является хорошим вариантом.

Если данные изменяются во времени (например, волатильность), возможно использование более сложных моделей, таких как GARCH, но это потребует обширных данных и знаний в области временных рядов.

Следует также помнить, что правильная интерпретация и применение методов анализа зависит от характера ваших данных и их распределения, поэтому рассматривайте проведенное исследование в контексте вашей конкретной задачи.

Оцените материал
Добавить комментарий

Капча загружается...