Определить членов, которые, вероятно, изменят место получения лекарственной терапии.

Question 1

У меня есть доступ к данным по медицинским выплатам от крупной страховой компании. Как некоторые из вас уже знают, существует большая разница в цене на препарат X в зависимости от места его применения.

Наша компания хочет помочь участникам снизить затраты, которые они оплачивают в виде вычетов, соплатежей и сооплаты, а также снизить расходы для системы здравоохранения, определив наименьшую стоимость медицинских услуг, обычно это домашнее введение или врачевание.

Я исследую различные подходы, и моделирование сегментации клиентов кажется самым подходящим для решения этой задачи.

Данные о заявках охватывают три года и находятся на уровне участников. Для каждой заявки участника может быть много записей в базе данных. Одна строка может быть связана с 2 часами введения химиотерапии, другая — с препаратами, которые им предоставляли, другие — с временем медсестры и т. д. Каждая строка указывает, где происходило лечение, т.е. домашнее введение, врач, амбулаторная помощь, специализированная аптека. Каждая заявка также предоставляет детали по основному диагнозу, т.е. ревматоидный артрит (Р.А) и т. д.

В идеале я хотел бы выявить тех участников, которые обращаются в дорогие медицинские учреждения, когда есть более дешевые альтернативы. Я думал, что, например, для основного диагноза Р.А я мог бы отфильтровать участников с диагнозом Р.А, используя код диагноза, а затем кластеризовать этих участников на основе определенных входных характеристик, таких как демография, расстояние до центра домашнего введения/больницы/врача, уровень покрытия, частота пополнения запасов, дозировка, стоимость препарата, текущее место оказания услуг и т. д.

Мой подход верный или существует лучший способ решить эту проблему, помимо кластеризации?

Question 2

Учитывая, что данные помечены, просто применяйте методы с учителями, они почти всегда превосходят методы без учителя.

Интуитивно можно понять, почему это так, потому что у нас нет целевой функции в методах без учителя. Иными словами, это функция, которая различает классы с учетом нашего набора данных. Мне нравится думать, что в обучении без учителя эта функция является функцией тождества, а не (то, что на самом деле является) какой-то сложной функцией. Учитывая весь набор данных, мы запрашиваем разбиение входного пространства с определенными свойствами (разбиения содержат почти все примеры, каждое разбиение не слишком велико, разбиения не слишком близки друг к другу), но такое разбиение не соответствует реальным классам (поскольку мы ожидаем классы, которые четко разделены в данных, но на самом деле они имеют какое-то нелинейное разделение, и это нелинейное/сложное поведение представлено в виде какой-то функции. Которую методы с учителем приближают (вы можете представить почти каждый метод с учителем как оптимизацию)).

Определить членов, которые, вероятно, изменят место получения лекарственной терапии.

Вопрос или проблема

Ответ или решение

Этапы решения проблемы