Как найти вертикальные кластеры в одномерных данных

Question 1

У меня есть остатки многомерных временных рядов, полученные с датчиков на сервере. Всплески на графиках остатка указывают на аномальное состояние сервера. Я хочу сгруппировать данные по вертикальным кластерам и получить индексы точек в каждом кластере, чтобы я мог вернуться и посмотреть на фактические данные и получить средние значения различных параметров кластера.

Я пробовал 1D гауссову класификацию, K-means и т.д., но, похоже, они все группируют данные горизонтально.

Я хочу, чтобы каждый всплеск был отдельным кластером и получить индексы значений в кластере. Может кто-нибудь предложить технику для решения этой проблемы? Спасибо.

Question 2

Вам могут подойти более полезные методы, если вы будете искать обнаружение событий или обнаружение выбросов, а не кластеризацию. Учитывая форму всплесков в данных, вы можете попробовать использовать среднее значение временного ряда в качестве порога, тогда смежные группы значений, которые превышают глобальное среднее, будут вашими аномальными состояниями. Хотя этот метод может быть немного хрупким в долгосрочной перспективе, поэтому вы можете сделать его более совершенным. Вы можете использовать среднее значение по большому скользящему окну вместо глобального среднего, если вас больше интересуют локальные изменения.

Если вы хотите сохранить концепцию кластеризации, тогда может быть лучше провести кластеризацию в 2D, т.е. ваши точки будут представлять собой кортежи/векторы (время, значение), а не проводить кластеризацию на 1D данных. Другой метод, который, вероятно, сработает, это использовать кластеризацию K-средних на 1D данных, но иметь только 2 кластера (нормальный и аномальный). Затем вам нужно будет использовать информацию о времени для разделения отдельных событий/аномалий.

Question 3

Предполагая, что вы имеете в виду кластеры как цвета на вашем графике, это в основном.percentiles, т.е. сколько точек выше или ниже определенного процента данных.

Чтобы найти точки в вертикальном диапазоне, вам просто нужно найти точки между двумя процентилями. Например, с помощью numpy можно сделать следующее:

a = np.array([1, 1, 1, 5, 5, 1, 1, 6, 7, 8, 10, 13, 10, 9, 7, 2, 1, 1, 5, 6, 9, 9, 6, 1, 1, 1])
a1 = a[(a >= np.percentile(a, 0)) & (a <= np.percentile(a, 25))]
a2 = a[(a > np.percentile(a, 25)) & (a <= np.percentile(a, 50))]
a3 = a[(a > np.percentile(a, 50)) & (a <= np.percentile(a, 65))]
a4 = a[(a > np.percentile(a, 65)) & (a <= np.percentile(a, 80))]
a5 = a[(a > np.percentile(a, 80)) & (a <= np.percentile(a, 90))]
a6 = a[(a > np.percentile(a, 90)) & (a <= np.percentile(a, 100))]

Это дает точки следующим образом:

a1 содержит точки в пределах 0-го процентиля (включительно) до 25-го процентиля (включительно)
a2 содержит точки в пределах 25-го (исключительно) до 50-го (включительно)
a3 содержит точки в пределах 50-го (исключительно) до 65-го (исключительно)
и так далее

Вам нужно быть осторожным с сравнением (больше чем против больше чем или равно), чтобы включить все точки: один из диапазонов должен быть включен с обеих сторон.

Мы также можем это нарисовать, чтобы увидеть, как это выглядит:

x = np.arange(len(a))
fig, ax = plt.subplots(figsize=(14, 6))
ax.plot(x[np.isin(a, a1)], a1, 'o')
ax.plot(x[np.isin(a, a2)], a2, 'o')
ax.plot(x[np.isin(a, a3)], a3, 'o')
ax.plot(x[np.isin(a, a4)], a4, 'o')
ax.plot(x[np.isin(a, a5)], a5, 'o')

Процентиль — это статистическая мера по умолчанию. Они не являются фиксированными числами. Я использовал очень разные процентильные значения, потому что хотел (1) получить красивые цвета на графике и (2) иметь хотя бы один пустой диапазон (обратите внимание, что a5 пуст, так как между 80-м и 90-м процентилями нет точек). В реальном сценарии лучше брать очень регулярные диапазоны, например, (0, 25, 50, 75, 100) или (0, 10, 20, 30, 40, 50, 60, 70, 80, 90).

Как найти вертикальные кластеры в одномерных данных

Вопрос или проблема

Ответ или решение

Как найти вертикальные кластеры в однопредельных данных

1. Обнаружение событий и аномалий

2. Кластеризация в двухмерном пространстве

3. Использование percentiles для выделения диапазонов

Заключение