Уменьшение ложных срабатываний с помощью модели распознавания именованных сущностей с аннотацией.

Вопрос или проблема

Я обучаю модель NER для обнаружения упомянутых фраз и сленговых слов в исследовании предвзятости, проведенном на судебных делах.

По сути, у меня есть пакеты текста, которые я отсканировал, и это полные протоколы.

Модель отлично справляется с обнаружением нужных мне фраз на основе аннотаций, которые я создал из множества уже отсканированных дел. Однако я сталкиваюсь с ложными срабатываниями для определенных фраз.

Вот пример фразы, которую я хочу отметить: Ваше честь, мой клиент, обв., признает вину. Вот ложное срабатывание, которое она обнаружила: Вы определенно виновны, сказал судья.

Кажется, что во многих случаях “обв.” отмечается неправильно. Я не давал модели обучающие документы, где такой сокращенный “обв.” мог бы существовать, но, по моим предположениям, именно здесь моя проблема. Я обучал модель только на аннотированных данных и не предоставил ей никаких других данных, текстовых документов, чтений.

Как вы думаете, что я могу сделать, чтобы уменьшить количество ложных срабатываний?

В целом, предоставление модели большего количества негативных примеров действительно могло бы помочь. В примере, если бы модель видела несколько негативных примеров, включающих “обв.”, то она бы не полагалась на это или пыталась найти другие подсказки. Обратите внимание, что это также может вызвать обратный эффект ложных отрицательных ошибок.

Кроме того, вы могли бы попытаться улучшить признаки или предобработку, чтобы помочь модели определить правильный ответ. Например, если “обв.” обычно пишется с пунктуацией, когда используется как сокращение, было бы просто сделать строку отличной от любого другого использования “обв”. Вероятно, пунктуация была удалена на этапе токенизации, возможно, вызывая путаницу у модели.

Ответ или решение

Для снижения числа ложных срабатываний при обучении модели распознавания именованных сущностей (NER), необходимо учитывать специфические аспекты обработки текстовых данных.

Теория:
Модели NER обучаются на основе аннотированных данных, которые помогают им выделять релевантные фразы и термины. Однако, отсутствие достаточного количества отрицательных примеров в обучающей выборке может привести к возникновению ложных срабатываний. Основная проблема в вашем случае связана с некорректной идентификацией сокращения "def" в различных контекстах. Ложные срабатывания могут быть вызваны удалением знаков препинания в процессе токенизации, что делает "def." и "def" неразличимыми для модели.

Пример:
Вы хотите корректно идентифицировать фразу "Your honor, my client, the def., pleads guilty.", но модель также отмечает как сущность фрагменты, в которых "def" используется без точки, как в примере "You are def guilty, said the judge.". Таким образом, противопоставление таких примеров может помочь модели различать контексты использования сокращений и фраз.

Применение:

Расширение обучающей выборки: Добавьте более разнообразные отрицательные примеры, которые иллюстрируют некорректное использование фраз, особенно с сокращениями без знаков препинания. Это поможет модели лучше отличать нужные конструкции от случайных совпадений.
Улучшение токенизации и предобработки данных: Убедитесь, что этап токенизации корректно обрабатывает знаки препинания. Возможно, стоит изменить настройки токенизации так, чтобы они учитывали точку как существенную часть аббревиатуры "def.".
Семантическое обогащение: Используйте дополнительные признаки для улучшения распознавания, например, семантические контексты вокруг сокращений. Это может помочь модели лучше понимать роль слов и фраз в предложениях.
Анализ возможных ложных негативов: Следите за балансом между уменьшением ложных срабатываний и риском появления ложных отрицательных выводов. Возможно, потребуется тонкая настройка модели и регулярный анализ точности после внесения изменений.

Эти шаги могут помочь вашей модели NER снизить количество ложных срабатываний и повысить её точность в распознавании нужных сущностей в текстах судебных заключений.