Извлечение информации с соответствующими полями.

Вопрос или проблема

У меня есть большой объем отсканированных документов округа. Мне нужно извлечь информацию, такую как заголовок документа, имя и адрес заемщика, имя и адрес кредитора и т.д.

Текст выглядит так:
Пример: доверенность на имя, между abc llc, компанией с ограниченной ответственностью, чей адрес – XXXXXX, называемой “заемщиком”, и xyz, чей адрес – XXXXX, называемым “кредитором”.

Я использовал метод распознавания именованных сущностей для извлечения имен, он работает хорошо. Но как мне узнать, какое имя является именем заемщика, а какое – кредитора? Может кто-нибудь помочь мне?

Вы определенно на правильном пути с NER. Что касается определения “класса” того, что вы извлекли, думаю, у вас есть два основных варианта:

Обучить новый тип сущности для каждого случая.
Использовать набор правил, которые исследуют термин в контексте для определения класса.

Думаю, у вас может быть больше успеха с вариантом 2, если окружение терминов достаточно статично. Также я пока не смотрел это, но подумал, что это может тоже помочь – кажется, это касается именно вашей проблемной области. https://www.youtube.com/watch?v=KrXJmaSHBJU.

Ответ или решение

Извлечение информации из сканированных документов: точный подход

Вопрос извлечения информации из большого массива сканированных документов, особенно когда речь идет о полях, таких как название документа, имя заёмщика и его адрес, а также имя и адрес кредитора, требует тщательно продуманного подхода. Ниже описаны шаги, которые помогут организовать этот процесс более эффективно.

### Проблема

У вас есть массив сканированных документов на уровне округа, содержащий информацию подобную следующей:
«Залоговый акт между abc llc, компанией с ограниченной ответственностью, с адресом XXXXXX, именуемой в дальнейшем “заёмщик”, и xyz, с адресом XXXXXX, именуемой в дальнейшем “кредитор”.»

Вы уже попробовали метод распознавания именованных сущностей (NER), который хорошо выявляет имена. Однако, возникает вопрос: как отличить, какое имя относится к заёмщику, а какое к кредитору?

### Решение

На данный момент у вас есть два основных пути решения этой проблемы:

#### 1. Обучение для новых типов сущностей.

Вы можете расширить или переподготовить вашу модель NER для распознавания не только имен, но и связанных с ними ролей, таких как “заёмщик” или “кредитор”. Это требует создания обучающего набора данных, в котором определены новые виды сущностей, и последующего обучения модели на этих данных.

#### 2. Использование правил для анализа контекста.

Если текст в ваших документах имеет фиксированную структуру, применение набора правил может быть более рациональным подходом. Например, алгоритм может использовать регулярные выражения для поиска ключевых слов типа “называемый ‘заёмщик'” или “называемый ‘кредитор'”, и на их основе определять роль извлеченной информации.

### Лучший подход

Исходя из указанной вами проблемы, я рекомендую второй вариант — использование правил для определения классов на основе контекста. Это облегчит процесс внедрения и не потребует значительных затрат на обучение новой модели, особенно если язык и структура текста документов единообразны.

### Ресурсы

Для более эффективной реализации этого подхода, существует множество обучающих материалов, которые могут расширить ваше понимание работы с этими инструментами. Например, ссылка, данная в вашем вопросе (https://www.youtube.com/watch?v=KrXJmaSHBJU), может содержать ценные инсайты относительно вашей задачи.

#### Заключение

Разработка алгоритма извлечения и классификации информации из текстовых данных — важная задача, и ваш выбор методов будет сильно зависеть от структуры и однородности данных. Применив контекстный анализ и хорошо продуманную систему правил, вы сможете добиться точности и надежности в извлечении нужной информации из ваших документов.