Найти и отфильтровать время перерывов в наборе данных (python)

Вопрос или проблема

У меня есть запись данных, содержащая почасовую производительность машины и соответствующую временную метку. Сейчас у меня есть проблема, заключающаяся в том, что существуют перерывы, в течение которых почасовая производительность естественным образом ухудшается. Эти периоды перерывов следует отфильтровать, так как они ухудшают среднее значение за день. Я просто не могу определить конкретные временные периоды и отфильтровать данные, которые они содержат. Мне нужна функция, которая автоматически определяет, в каком часу может быть перерыв и затем исключает этот час. Может ли кто-нибудь помочь мне с этим? Что я мог бы использовать для реализации этого?

Я думал о статистических гипотезах, которые сравнивают средние значения и распознают и фильтруют значимо отклоняющиеся средние значения. Но я не знаю, имеет ли это смысл.

Ответ или решение

В решении задачи выделения и фильтрации перерывов в данных о производительности машины, в основе которого лежат временные метки, есть несколько важных аспектов, которые следует учитывать. В этом ответе я предложу теоретическое обоснование, примеры реализации и применение соответствующих методов для решения проблемы.

Теория

Для начала нам необходимо понять, какие именно данные у нас имеются и как их обрабатывать. У нас есть временные метки и данные о часовой производительности машины. Цель заключается в автоматическом обнаружении и фильтрации периодов снижения производительности, характерных для перерывов. Это позволит избавиться от искажающих значений при расчете среднесуточной производительности.

Одним из подходов может быть использование статистических методов для обнаружения аномалий. Например, метод Z-оценки позволяет определить, насколько далеко сигнальное значение отклоняется от среднего значения в стандартных отклонениях. Этот метод может отфильтровать значения, значительно выходящие за пределы нормальной производительности.

Ещё одним подходом может быть использование временных рядов и анализа трендов и сезонности. Это позволяет учитывать и корректировать данные с учётом временных изменений и различных паттернов в производительности.

Пример

Ниже приведен пример использования библиотеки Pandas для Python, который показывает, как можно реализовать фильтрацию данных по Z-оценке:

import pandas as pd
import numpy as np

# Создайте DataFrame с данными
data = {'timestamp': pd.date_range(start='2023-01-01', periods=24, freq='H'),
        'output': [100, 95, 105, 102, 50, 55, 100, 97, 103, 106, 100, 0, 0, 100, 102, 99, 103, 0, 0, 104, 101, 99, 98, 105]}
df = pd.DataFrame(data)

# Расчет среднего и стандартного отклонения
mean_output = df['output'].mean()
std_output = df['output'].std()

# Расчет Z-оценок
df['z_score'] = (df['output'] - mean_output) / std_output

# Фильтрация данных по Z-оценке
threshold = 1.96  # Используем 95% доверительный интервал
filtered_data = df[np.abs(df['z_score']) < threshold]

print(filtered_data)

В данном примере, данные с Z-оценкой, превышающей указанное пороговое значение (например, 1.96 для 95% доверительного интервала), исключаются, таким образом, удаляя значительные отклонения, которые можно считать перерывами в работе.

Применение

Понимание того, как переменные ведут себя во времени, критично для корректного анализа данных производительности. Для более детализированного анализа, компания может рассмотреть использование временных рядов и других статистических моделей. Например, использование библиотек statsmodels или scikit-learn для применения методов бинарной классификации в выделении аномалий может дать более точные результаты.

Вы также можете использовать machine learning модели, например, модели кластеризации (KMeans, DBSCAN), чтобы сгруппировать часы работы и точно определить, какие из них представляют собой аномалии. Эти модели автоматически определяют кластеры данных и могут помочь в обнаружении натуральных группировок в данных производительности, что может включать и периоды неполной работы.

Важно учитывать, что полное понимание и анализ данных требует детального исследования перед их внедрением в рабочие процессы. Оптимизация процессов анализа данных может значительно способствовать успешному внедрению автоматизированных систем управления производительностью.

Таким образом, интегрируя статистические методы анализа и экономические модели, вы можете подобрать оптимальное решение для автоматической фильтрации временных периодов, соответствующих перерывам, улучшив этим самым точность расчета среднего времени работы машины.