Какие методы существуют для извлечения травмы и ее описания из абзаца?

Question 1

Предположим, у меня есть абзац, который объясняет травмы и их описания. Я хочу извлечь травмы и соответствующие им описания из текста. Как я могу это сделать?

Например, абзац будет следующим:

На мой взгляд, боль в шее вызвана травмой мягких тканей. Перелом на руке будет устранен через 2 месяца. Боль в плече и шее вызвана травмой мягких тканей. Имеется скованность и дискомфорт в области бедра.

Ожидаемый вывод:

{
"шея": ["мягкие ткани"],
"рука": ["перелом"],
"плечо": ["мягкие ткани"],
"бедро": ["скованность", "дискомфорт"]
}

Какие техники обработки естественного языка могут быть использованы здесь?

У нас есть два текстовых файла для травм и описаний.

Но как мы свяжем или сопоставим описание с соответствующей травмой?

Я пробовал зависимый парсер, но проблема в том, что нам нужно написать множество шаблонов для каждой травмы, у нас более 100 травм и более 100 описаний. Поэтому, если мы будем писать шаблоны для всех травм, их будет очень много, и я считаю, что это займет слишком много времени и ресурсов.

Существуют ли другие способы сделать такую извлечение?

Абзац не имеет общей структуры.

Я использую Python и Spacy для этого.

Question 2

Учитывая неструктурированный характер ваших описаний травм, я не думаю, что это возможно с помощью классических техник обработки естественного языка. Я предлагаю вам использовать большую языковую модель (LLM), либо из семьи OpenAi GPT, либо нечто подобное Llama или RedPajama. Дайте ей подсказку с примером, и она должна дать вам результат.

Это будет пример возможной подсказки с использованием вашего примера:

Дано описание состояния пациента, извлеките диагноз их травм:

Описание: На мой взгляд, боль в шее вызвана травмой мягких тканей. Перелом на руке будет устранен через 2 месяца. Боль в плече и шее вызвана травмой мягких тканей. Имеется скованность и дискомфорт в области бедра.

Травмы: {
  "шея": ["мягкие ткани"],
  "рука": ["перелом"],
  "плечо": ["мягкие ткани"],
  "бедро": ["скованность", "дискомфорт"]
}

Описание: боль в копчике вызвана повреждением костей копчика. Ушиб на руке обусловлен травмой мягких тканей.

Травмы: {

Модель завершит JSON с травмами за вас. Затем вы сможете его разобрать. Учитывая недостаток разнообразия в вашем примере, вам, вероятно, понадобится предоставить еще несколько примеров и, возможно, с более широким разнообразием травм. Проектирование эффективной подсказки (также известной как “инженерия подсказок”) является частью использования LLM.

Обратите внимание, что вам не нужно переобучать модель, вы можете просто использовать предварительно обученные модели как таковые, предоставляя разумную подсказку, позволяющую LLM давать желаемые выходы.

Что касается того, какую модель использовать, в настоящее время имеется десятки моделей. Некоторые являются универсальными, другие обучены на медицинских данных. Лицензия некоторых из них позволяет коммерческое использование, а другие разрешают только исследовательские цели. Некоторые очень большие, а другие меньшие. Вам следует исследовать доступные в настоящее время предварительно обученные модели и выбрать ту, которая дает хорошие результаты, соответствуя вашим операционным ограничениям.

Какие методы существуют для извлечения травмы и ее описания из абзаца?

Вопрос или проблема

Ответ или решение

1. Использование традиционных методов NLP

a. Регулярные выражения

b. Обработка зависимостей

2. Модели глубокого обучения и LLM

a. Использование языковых моделей

Пример подсказки (prompt):

3. Тестирование и выбор модели

Заключение