Вопрос или проблема
У меня есть набор данных ЭКГ временных рядов. Я хочу заняться обнаружением аномалий (все, что отличается от нормальной ЭКГ, должно считаться аномальным).
Дело в том, что у меня есть только положительные образцы и очень немного отрицательных образцов.
Как можно смоделировать эту проблему? Можно ли смоделировать это как вероятностное распределение и, когда появляются некоторые отрицательные образцы, просто принимать дивергенцию от положительного распределения?
Если вы хотите смоделировать это как задачу регрессии, использование только нормальных данных ЭКГ, по моему мнению, достаточно. В этом случае аномальные данные будут использоваться только для валидации вашей модели, но даже те немногие отрицательные образцы, которые у вас есть, могут быть действительными для этого.
У вас есть множество вариантов для получения этой дивергенции, например, Система Махаланобиса-Тагучи. Вы также можете смоделировать ошибку, возникающую из вашей регрессионной модели, или полностью перейти на байесовский подход с чем-то вроде Гауссовских процессов, так что у вас уже будет распределение для вашего апостериорного. Таким образом, вы можете перекрестно проверять новые отрицательные образцы.
Электроэнцефалограмма (ЭЭГ) – это данные временных рядов с непрерывным временем. Любое обнаружение аномалий в непрерывных временных рядах может сработать (например, декомпозиция STL или динамическое изменение временных рядов с кластеризацией k-средних).
Ответ или решение
Аномальные события в временных рядах, таких как данные ЭКГ, представляют собой сложную задачу в области анализа данных. Данная проблема усугубляется тем, что в вашем распоряжении имеются только положительные образцы, а количество отрицательных образцов крайне ограничено. В этой статье мы рассмотрим детальный подход к учреждению модели для обнаружения аномалий, используя лишь положительные образцы.
Основные принципы моделирования
-
Моделирование распределения вероятностей:
При наличии лишь положительных образцов уместно использовать статистические методы для моделирования распределения ваших временных рядов. Ниже приведены несколько стратегий, которые вы можете применить для этой задачи:- Параметрические и непараметрические способы: Используйте такие распределения, как нормальное или логнормальное для моделирования ваших положительных образцов. Альтернативно, применяйте непараметрические методы, такие как плотность ядровой оценки (KDE).
-
Режимы регрессии:
Модернизируйте задачу аномалии в задачу регрессии:- Регрессия на основе многих переменных: Вы можете использовать алгоритмы регрессии (например, линейная регрессия, регрессия с использованием парсинговых деревьев), чтобы предсказать нормальные значения на основе положительных образцов. Аномальные значения будут отклоняться от ожидаемого ответа.
-
Методы Байесовского вывода:
Одним из мощнейших инструментов для работы с нестандартными данными являются байесовские методы. С помощью Гауссовских процессов можно эффективно моделировать распределение и оценивать отправные вероятности для новых наблюдений. Это позволяет не только предсказывать значения, но и фиксировать неопределенности в предсказаниях.
Выявление аномалий
Теперь, когда вы создали модель, требуется адаптировать ее для выявления аномалий:
-
Махаланобисова дистанция и система Тагунчи: Эти методы являются эффективными для оценки аномалий в многомерных данных. Они позволяют оценить, насколько далеко новое значение находится от нормального распределения.
-
Ошибки регрессионной модели: Оцените ошибки, возникающие при предсказании нового значения с использованием разработанной модели. Если ошибка превышает заранее установленный порог, можно с большой вероятностью считать, что данный случай является аномальным.
Дополнительные подходы
-
Динамическое временное выравнивание: Применяйте методы, такие как динамическое временное выравнивание (DTW), чтобы оценить схожесть временных рядов, что позволит сопоставить новые данные с нормальными образцами.
-
Кластеризация: Используйте алгоритмы, такие как k-средние, для группирования нормальных образцов ЭКГ. Аномальные данные будут вне групп нормальных значений.
-
Декомпозиция временных рядов: Методы разложения временных рядов (STL) позволяют выделить различные компоненты (тренд, сезонность и остаток), которые могут помочь в обнаружении аномалий.
Заключительные замечания
Анализ временных рядов с использованием только положительных образцов, безусловно, представляет собой сложную задачу, однако она решаема. Использование статистических методов, адаптация к регрессионным задачам, байесовский подход и методы кластеризации позволят вам достичь высоких результатов в этой области. Самое главное — обеспечить наличие достаточной валидационной базы с известными аномальными данными для проверки эффективности вашей модели.