Какой метод/алгоритм использовать для извлечения информации из проектных документов о целях, мероприятиях и других переменных?

Вопрос или проблема

Я более-менее новичок в области обработки естественного языка, так что предполагайте небольшой уровень существующих знаний! Но у меня сильные навыки программирования на R и в меньшей степени на Python.

Нас интересует извлечение ключевой информации о целях, действиях и рисках из проектных документов нескольких тысяч образовательных проектов, выполненных Всемирным банком. Документы достаточно структурированы, с заголовками и таблицами для всех переменных, которые нас интересуют, но они относятся к 1990-м годам, и фактический формат и внешний вид документов сильно изменились с течением времени. Нам нужен вывод для каждой переменной, который был бы довольно общим (так что цели имели бы только несколько возможных категорий, таких как “доступ”, “обучение” и так далее).

Какие методы мы примерно должны использовать? Наш первоначальный план заключался в том, чтобы вручную маркировать их подмножество и использовать подход с контролируемым обучением (возможно, классификация текстов?), чтобы автоматически маркировать остальные. Но по мере чтения это не кажется слишком подходящим. Спасибо заранее!

Я бы предложил начать не с непосредственного ручного маркирования, а с ручного тематического исследования: наблюдать, какие подсказки использовала бы система, насколько велика разнородность, при необходимости точно определить различные типы информации, которые следует извлечь, и так далее.

На основе первоначального исследования выберите метод от простого поиска с использованием регулярных выражений (если есть всего несколько четко определенных случаев) до сложных подходов, возможно, включая сегментацию текста или распознавание именованных сущностей. Вы также должны учитывать, насколько надежной должна быть система и сколько усилий может быть вложено в аннотирование данных.

Ответ или решение

Чтобы эффективно извлекать информацию о целях, активности и других переменных из проектных документов, связанных с образовательными инициативами Всемирного банка, требуется использовать методы обработки естественного языка (NLP). Поскольку вы заявили, что имеете сильные навыки программирования на R и, в меньшей степени, на Python, то можно будет рассмотреть использование инструментов из этих языков для выполнения задачи.

Теория

Когда речь идет об извлечении информации, в первую очередь важно понять задачи и особенности, с которыми предстоит работать. В вашем случае документы вариативны, включают различные элементы и устаревшие форматы. Основная задача — извлечение структурированной информации (например, цели и виды деятельности) из полуструктурированных документов. Для этого обычно применяют сочетание классических методов NLP и современных подходов, таких как глубокое обучение и трансформеры.

Прежде всего, стоит рассмотреть несколько ключевых подходов:

Ручная аннотация и машинное обучение: Этот метод предполагает аннотацию части документов вручную с последующим обучением модели классификации. Вы упоминали, что изначально рассматривали этот подход, и он остается актуальным, особенно если подобрать корректные метрики и модели.
Распознавание именованных сущностей (Named Entity Recognition, NER): Этот метод поможет выделять определенные сущности в тексте — например, цели, активности или риски. Создание кастомной NER системы или адаптация существующих может значительно упростить процесс.
Регулярные выражения (Regex): Для выявления структурированных данных или постоянных элементов в документах можно использовать регулярные выражения. Это простой, но в определенных случаях очень действенный подход, особенно когда структура документов достаточно предсказуемая.
Трансформеры и предварительно обученные языковые модели (например, BERT, GPT): Для работы с неструктурированными и разнообразными текстами это современный и высокоэффективный метод. Они могут поддерживать как классификацию текстов, так и извлечение сущностей на основе контекста.

Пример

Представим, что у вас есть набор документов за разные годы, некоторые из них структурированы в виде таблиц. Вы можете начать с изучения этих документов, создавая набор правил с помощью регулярных выражений для извлечения типовых секций, таких как "Цели" или "Деятельности".

Для более сложных частей текста можно задействовать NER, которая выделит ключевые слова и фразы, имеющие ценность. Например, используя Python и библиотеку spaCy или Transformers от Hugging Face, можно идентифицировать и классифицировать сущности на основе контекста.

Применение

Переходя к практическому применению, вы можете начать с небольшого пилотного проекта:

Изучение данных: Просмотрите доступные вам документы, чтобы лучше понять структуру, форматирование и потенциальные трудности. Документируйте особенности, которые могут влиять на методику извлечения.
Разработка и тестирование регулярных выражений: Создайте набор регулярных выражений для анализа простых и структурированных частей текста. Напишите функции на R или Python для извлечения стандартных секций.
Создание модели NER: Используйте предварительно обученные модели или создайте свою модель с помощью таких инструментов, как spaCy. Определите категории, которые необходимо извлекать и обучите модель на небольшом наборе размеченных данных.
Разработка системы на базе трансформеров, если структура текста вариабельна или не всегда четко размечена. Это может быть сделано с использованием библиотек Transformers от Hugging Face, с такими моделями, как BERT или DistilBERT.
Интеграция и тестирование: В комплексной системе интегрируйте методы, полученные на предыдущих шагах, и протестируйте на реальных данных. Сравните результаты с ручной аннотацией для оценки качества извлечения.

Благодаря данной методологии у вас появится мощный инструмент для извлечения ценных данных из сложных документов. Это позволит вам систематически обрабатывать и анализировать данные тысяч образовательных проектов, приводя их в стандартный формат и обеспечивая высокую точность и воспроизводимость результатов.