Вопрос или проблема
У меня есть доступ к данным по медицинским выплатам от крупной страховой компании. Как некоторые из вас уже знают, существует большая разница в цене на препарат X в зависимости от места его применения.
Наша компания хочет помочь участникам снизить затраты, которые они оплачивают в виде вычетов, соплатежей и сооплаты, а также снизить расходы для системы здравоохранения, определив наименьшую стоимость медицинских услуг, обычно это домашнее введение или врачевание.
Я исследую различные подходы, и моделирование сегментации клиентов кажется самым подходящим для решения этой задачи.
Данные о заявках охватывают три года и находятся на уровне участников. Для каждой заявки участника может быть много записей в базе данных. Одна строка может быть связана с 2 часами введения химиотерапии, другая — с препаратами, которые им предоставляли, другие — с временем медсестры и т. д. Каждая строка указывает, где происходило лечение, т.е. домашнее введение, врач, амбулаторная помощь, специализированная аптека. Каждая заявка также предоставляет детали по основному диагнозу, т.е. ревматоидный артрит (Р.А) и т. д.
В идеале я хотел бы выявить тех участников, которые обращаются в дорогие медицинские учреждения, когда есть более дешевые альтернативы. Я думал, что, например, для основного диагноза Р.А я мог бы отфильтровать участников с диагнозом Р.А, используя код диагноза, а затем кластеризовать этих участников на основе определенных входных характеристик, таких как демография, расстояние до центра домашнего введения/больницы/врача, уровень покрытия, частота пополнения запасов, дозировка, стоимость препарата, текущее место оказания услуг и т. д.
Мой подход верный или существует лучший способ решить эту проблему, помимо кластеризации?
Учитывая, что данные помечены, просто применяйте методы с учителями, они почти всегда превосходят методы без учителя.
Интуитивно можно понять, почему это так, потому что у нас нет целевой функции в методах без учителя. Иными словами, это функция, которая различает классы с учетом нашего набора данных. Мне нравится думать, что в обучении без учителя эта функция является функцией тождества, а не (то, что на самом деле является) какой-то сложной функцией. Учитывая весь набор данных, мы запрашиваем разбиение входного пространства с определенными свойствами (разбиения содержат почти все примеры, каждое разбиение не слишком велико, разбиения не слишком близки друг к другу), но такое разбиение не соответствует реальным классам (поскольку мы ожидаем классы, которые четко разделены в данных, но на самом деле они имеют какое-то нелинейное разделение, и это нелинейное/сложное поведение представлено в виде какой-то функции. Которую методы с учителем приближают (вы можете представить почти каждый метод с учителем как оптимизацию)).
Ответ или решение
Для решения задачи идентификации членов, вероятно, переключающихся на более экономные варианты администрирования лекарств, предлагаю комплексный подход, используя методы управляемого обучения. Доступные медицинские данные о страховых случаях предоставляют богатую информацию для анализа, и хотя вы правильно отметили полезность кластеризации, нам следует ориентироваться на управляемые методы, которые могут значительно повысить точность предсказаний.
Этапы решения проблемы
-
Определение целевой переменной: Первым шагом необходимо определить целевую переменную, которую мы будем предсказывать. Например, это может быть бинарная переменная, обозначающая, переключится ли член на более дешевый вариант администрирования лекарства (да/нет). Для этого нужно проанализировать исторические данные о смене места администрирования.
-
Подготовка данных: Необходимо подготовить данные для анализа:
- Фильтрация по диагнозу: Сначала отфильтруйте данные по определенному диагнозу, например, по кодам, связанным с Р.А. (ревматоидный артрит).
- Преобразование и нормализация данных: Преобразуйте категориальные переменные в числовые (например, с помощью one-hot кодирования) и нормализуйте числовые переменные (например, расстояние до центров инфузии).
- Учет временных факторов: Возможно, стоит учесть временные изменения в стоимости услуг или методов лечения.
-
Выбор признаков: Для построения модели следует выбирать такие признаки, как:
- Возраст и пол членов.
- Расстояние до ближайших центров инфузии или врачей.
- Уровень покрытия страховки.
- Частота пополнений рецептов.
- Дозировка и стоимость лекарства.
- Текущий сайт услуги и его стоимость.
-
Разделение на обучающую и тестовую выборки: Разделите данные на две части (обычно в пропорции 70-30 или 80-20), чтобы иметь возможность обучить модель и затем протестировать её на ранее не виденных данных.
-
Выбор модели: После подготовки данных можно переходить к выбору модели. Рассмотрите использование:
- Логистической регрессии для бинарной классификации.
- Деревьев решений или случайных лесов для более сложных отношений между признаками.
- Градиентного бустинга, который может дать высокую точность.
- Сетевых подходов, если данные позволят применить глубокое обучение.
-
Обучение и валидация модели: Обучите модель на обучающей выборке, применяйте методы кросс-валидации для получения надежной оценки производительности.
-
Оценка и интерпретация результатов: Оцените модель с использованием различных метрик (точность, полнота, специфичность и AUC-ROC). Проанализируйте важность признаков, чтобы лучше понять, какие факторы влияют на решение членов о смене места администрирования.
-
Рекомендации и внедрение: На основе полученных результатов разработайте рекомендации для членов и медицинских учреждений. Это может включать в себя создание информационных материалов, приложения или сервисов для облегчения доступа к более дешевым вариантам медикаментозной терапии.
-
Мониторинг и корректировка: После внедрения рекомендательных мер важно продолжать мониторинг данных и периодически обновлять модель, чтобы учитывать изменения в поведении членов и рыночных условиях.
Таким образом, использование управляемых методов обучения обеспечит более целенаправленный и точный подход к идентификации членов, которые могут сэкономить на затратах за счет переключения на более экономичные варианты администрирования лекарств.