Как лечить пациентов без событий в анализе времени до события?

Содержание

Вопрос или проблема
Ответ или решение
Как обрабатывать пациентов без событий в анализе времени до события
Понимание задачи
Проблема: Как обрабатывать пациентов без событий
Рекомендации по обработке данных
Заключение

Вопрос или проблема

Я работаю с продольными данными для серии пациентов. Длительность наблюдения на уровне пациента неравномерна.

Пациенты могут либо пережить дискретное событие (например, сердечный приступ), либо никогда не пережить это событие. Эта характеристика, конечно, бинарная. Кроме того, пациенты, которые пережили событие (например, первый сердечный приступ), могут также продолжать испытывать другие события (например, последующие сердечные приступы). Каждое событие привязано к дате события, которая будет сравниваться с моментом, когда пациент был диагностирован с его основным хроническим заболеванием (например, множественной миеломой).

Я хотел бы добавить в свой набор данных производный столбец – ВремяСПоследнегоСобытия. Вычисление этого значения для первых событий будет производиться по формуле (ДатаПервогоСобытия – ДатаДиагностики)/365, а для последующих событий – по формулам (ДатаВторогоСобытия – ДатаПервогоСобытия)/365, (ДатаТретьегоСобытия – ДатаВторогоСобытия)/365 и так далее.

Как мне закодировать этот производный столбец для пациентов, которые никогда не переживают событие? Я не могу вставить NA/NaN для этих пациентов, потому что последующие анализы требуют ненулевых и конечных данных; следовательно, они будут неправильно интерполированы. Одной из мыслей было установить эти значения на что-то радикально отличающееся, но стандартизированное, например -1 или 9999. Является ли это допустимым и разумным подходом? Если нет, то что вы использовали?

Как правило, я бы выбрал значение, которое значительно выходит за пределы диапазона значений, которые не интерполируются в этом столбце, так как это, вероятно, приведет к более экстремальным (заметным) ошибкам в случае их включения. Поэтому лучше 9999, чем -1. Однако, как вы, вероятно, уже попробовали, “наиболее правильным” решением было бы установить его в NaN, поскольку столбец просто не определен в этих случаях. Если на каком-либо этапе вашего анализа по столбцу ВремяСПоследнегоСобытия будут проводиться вычисления, что угодно, кроме NaN, технически приведет к неверным результатам.

Какова ваша стратегия последующего анализа? Может быть, вы можете разбить данные на два поднабора (один с сердечными приступами, другой без) и проанализировать их отдельно?

Ответ или решение

Как обрабатывать пациентов без событий в анализе времени до события

При работе с длиннолетними данными пациентов, важным аспектом является правильное управление информацией о времени до наступления события, особенно когда некоторые пациенты не испытывают такие события. В данном случае речь идет о пациентах, которые могут испытать сердечный приступ, и о том, как корректно вычислить значение, представляющее время с момента последнего события, в случае отсутствия уведомления о событии.

Понимание задачи

Ваша задача состоит в следующем:

для каждого пациента необходимо рассчитать время с момента последнего события (TimeSinceLastEvent);
пациенты могут либо испытать событие, либо нет;
для каждого события есть конкретная дата, с которой начинается отсчет.

Проблема: Как обрабатывать пациентов без событий

Пациенты, которые не испытали ни одного события, вызывают сложности, так как требуется, чтобы в итоговом наборе данных присутствовали только фиксированные и конечные значения. Использование значений NA/NaN не подходит, так как дальнейшие вычисления могут привести к некорректным результатам. Ваше предложение использовать экстраординарные значения, такие как -1 или 9999, для этих пациентов является разумным, но важно учитывать и другие аспекты.

Заключение

Корректная обработка данных о времени до события в условиях отсутствия событий у части пациентов требует осторожности и продуманности. Разделение групп, использование экстраординарных значений и фильтрация — все это аспекты, которые гарантируют корректность и интерпретируемость ваших выводов. Каждое ваше методологическое решение должно быть основано на понимании последствий выбора, чтобы обеспечивать высокое качество анализа и надежность полученных результатов.