Вопрос или проблема
У меня есть проблема регрессии, которая заключается в прогнозировании артериального давления пациента по ряду показателей жизненно важных функций, включая PTT, PPG и ЧСС. Каждая из этих входных характеристик была собрана с одинаковой частотой выборки, поэтому у меня одинаковое количество значений для каждой. Проблема, с которой я столкнулся, заключается в том, что данные артериального давления, соответствующие входным данным, были собраны с гораздо более низкой частотой выборки. На каждое чтение артериального давления у меня имеется 120 000 входных чтений.
Поскольку я довольно нов в области науки о данных, мне сложно понять, что искать в Интернете для получения методов решения этой проблемы. Я прочитал несколько статей, и один из методов, который они использовали, заключался в том, чтобы брать атрибуты до и после временной метки, как показано ниже.
Что я не понимаю, так это, что они делают с этим? То, как я это интерпретировал, заключается в том, что они копируют артериальное давление в позиции входных данных до и после совпадающей временной метки. Я привел скриншот ниже, показывающий, как я подошел к реализации этого.
Первое, что нужно сделать с предсказательными моделями, это начать с простого, а затем увеличивать сложность.
Я не знаю, как именно работает артериальное давление, но могу сказать, что некоторые колонки имеют большую изменчивость, чем другие, что требует другого подхода к обработке.
Перед тем, как делать прогнозы с разными колонками, вы можете начать с построения модели дерева решений (или случайного леса), используя среднее значение каждой колонки из 120 000 записей, чтобы увидеть, есть ли у вас уже какие-либо шаблоны.
Затем вы можете применить некоторую предварительную обработку данных, обнаружив коррелированные колонки (например, тепловая карта корреляции): некоторые некоррелированные колонки можно удалить, чтобы улучшить результаты и сократить время обработки. После этого вы можете использовать более длительную частоту выборки (например, каждую секунду), применяя предсказательные модели нейронных сетей, такие как GRU или LSTM, для обнаружения динамики ваших значений.
Ответ или решение
При решении задачи регрессии с целевой переменной временного ряда (например, артериальным давлением) и набором входных признаков (например, PTT, PPG и HR), которые были собраны с высокой частотой, возникает проблема неравномерности частоты выборки. В вашем случае на одну запись артериального давления у вас есть 120 000 записей входных данных, что создает свои трудности.
Анализ проблемы
В случае временных рядов, в которых целевая переменная (артериальное давление) записывается с гораздо более низкой частотой, важно учитывать, что такие данные могут быть разнородными и хаотичными, в отличие от входных данных, которые представлены в большом количестве. В этой ситуации необходимо найти подходящий метод подготовки данных для построения модели предсказания, которая будет учитывать динамику входных признаков со временем.
Подходы к решению проблемы
-
Агрегация входных данных: Сначала можно агрегировать входные данные (PTT, PPG, HR) до уровня временных меток, соответствующих записям артериального давления. Например, вы можете вычислить средние значения, медианы или даже квартильные значения по каждые 1 секунду или 10 секунд в зависимости от контекста. Это приведет к уменьшению размерности и предложит модель, которая лучше соответствует целевой переменной.
-
Создание временных окон (Sliding Windows): Использование метода окон позволяет вам сохранять соответствие между временными метками. Например, вы можете создать скользящее окно фиксированной длины, которое будет содержать все входные данные за определенный промежуток времени перед каждой записью артериального давления. Это поможет не терять информацию о временных зависимостях.
-
Использование алгоритмов машинного обучения: Можно начать с простых моделей, таких как дерево решений или случайный лес. Эти модели могут выявить некоторые базовые зависимости между агрегированными данными и целевой переменной до того, как вы усложните модель.
-
Нейронные сети для анализа временных рядов: Для выявления сложных паттернов во временных рядах можно использовать рекуррентные нейронные сети, такие как GRU (Gated Recurrent Unit) или LSTM (Long Short-Term Memory). Эти модели могут эффективно работать с последовательными данными и учитывать контекст предыдущих временных шагов.
-
Предварительная обработка данных и корреляционный анализ: Используйте корреляционные матрицы для выявления зависимостей между входными данными. Это позволит вам отфильтровать нерелевантные или сильно коррелирующие записи, что улучшит производительность модели и уменьшит необходимое количество признаков.
Заключение
Как видно, существует несколько стратегий, которые можно использовать для подготовки данных при наличии несоответствия частоты выборки. Всегда рекомендуется начать с более простых моделей, чтобы установить базовый уровень производительности, а затем переходить к более сложным методам. Эти шаги не только оптимизируют процесс визуализации и анализа данных, но также помогут вам достичь более точных и эффективных предсказаний артериального давления.
Не забывайте документировать ваши шаги и результаты, что позволит вам более эффективно улучшать модель в дальнейшем.