Вопрос или проблема
Этот временной ряд содержит некоторые временные рамки, каждая из которых составляет 8K (частоты)*151 (временные выборки) за 0.5 секунды [всего 1.2288 миллиона выборок за полсекунды]
Мне нужно найти аномальные значения на основе различных строк (частот). Отчитайтесь о строках (частотах), которые являются аномальными? (метод обучения без учителя) У вас есть идея, какой статистический параметр более полезен для этого? среднее, максимум, минимум, медиана, дисперсия или любые параметры из этих 151 выборки? Какой параметр я должен использовать? (я показываю одну выборку (151 выборка на частоту) из 8k данных)
Статистические контрольные процессы и CUSUM, в частности, могут быть полезными для выявления выбросов или изменений в данных временных рядов.
Ответ или решение
Для выявления аномалий и выбросов в ваших временных рядах с размером 8К (частота) на 151 временной образец, важно использовать адекватные статистические параметры. Поскольку данный вопрос подразумевает использование неуправляемого обучения, мы можем начать с рассмотрения нескольких ключевых параметров статистики, которые наиболее полезны для идентификации аномалий.
1. Среднее (Mean) и Медиана (Median)
- Среднее значение: Это один из наиболее распространенных параметров, но оно подвержено влиянию выбросов. Одно или несколько крайних значений могут значительно увеличить среднее, что делает этот параметр менее надежным для анализа временных рядов, где могут быть аномалии.
- Медиана: Более устойчивый к выбросам параметр, который будет лучше отражать "центральную тенденцию" данных. Если медиана значительно отличается от среднего, это может служить индикатором наличия аномалий.
2. Максимум (Max) и Минимум (Min)
- Максимум и Минимум: Эти параметры также важны для определения диапазонов значений, но они могут быть компенсированы другими значениями. Например, если одно значение значительно выше или ниже остальных, это изменение может быть определено только через исследование, так как максимумы и минимумы находятся на краях распределения.
3. Дисперсия (Variance) и Стандартное отклонение (Standard Deviation)
- Дисперсия: Этот параметр показывает, насколько разбросаны ваши данные. Высокая дисперсия может указывать на наличие аномалий. Если в одном из рядов дисперсия значительно выше, чем в других, это может сигнализировать о наличии уникальных или аномальных данных.
- Стандартное отклонение: Считается производным параметром от дисперсии и также полезно для оценки величины разброса. В контексте временных рядов, оно может помочь выделить значения, которые находятся за пределами одного или двух стандартных отклонений от среднего.
4. Процесс контроля и CUSUM
Согласно вашему упоминанию о статистическом контроле процессов и CUSUM (Cumulative Sum Control Chart), данный метод может быть весьма полезен. CUSUM учитывает накопленные суммы отклонений от целевого значения, позволяя визуализировать и идентифицировать изменения в данных. Этот метод хорошо реагирует на небольшие изменения во временных рядах и позволяет более точно улавливать аномалии.
Рекомендации по применению
В свете вышеизложенного, рекомендую следующее:
- Выбор основных метрик: Используйте медиану и стандартное отклонение как основные статистические параметры для оценки аномалий. Они будут менее чувствительны к выбросам и более устойчивы.
- Применение метода CUSUM: Рассмотрите возможность интеграции метода CUSUM для динамического наблюдения и контроля за изменениями во временных рядах. Это позволит вам более адекватно обнаруживать аномалии на протяжении времени.
- Визуализация данных: Визуализация разброса данных с помощью графиков, таких как коробчатые диаграммы или графики временных рядов, может помочь вам лучше понять расположение и аномалии в ваших данных.
Таким образом, комплексный подход, включающий несколько статистических параметров, позволяет более эффективно выявлять аномалии и выбросы. Понимание поведения данных на основе устойчивых статистик и методов контроля, как CUSUM, поможет вам найти и анализировать аномальные частоты среди ваших временных рядов.