Извлечь фразы/ключевые слова, которые ПОДОБНЫ списку ключевых слов/фраз на Python, из документа.

Question 1

ИЗМЕНЕНИЕ : Если бы мне нужно было сопоставить односоставные фразы, я мог бы сначала токенизировать текст из документа, а затем рассчитать косинусное сходство всех токенов со всеми ключевыми словами из keyword_list. Но проблема в том, что у меня могут быть односоставные или многосоставные ключевые фразы в keyword_list. Даже если я попробую использовать ngrams, как мне знать, какую длину ngrams использовать?

Я искал и читал множество статей/вопросов по этому поводу, но не смог найти решения.

Формулировка проблемы : Я пытаюсь извлечь похожие ключевые слова/фразы из документа на основе заранее установленного списка ключевых слов/фраз.

Например, ниже приведен список:

keyword_list = ['ваша работа', 'текущие операции', 'завершенные операции', 'ваше имя', 'телесные повреждения', 'ущерб имуществу', 
     'в пределах, разрешенных законом', 'требуется по контракту или соглашению']

У меня также есть текст, который я извлек из документов с помощью OCR. Предположим, текст следующий:

text = "В свете ваших текущих операций, ваше имя является приближением ваших рабочий моделей. Контракт требует, чтобы ущерб, нанесенный имуществу, несла обе стороны, в соответствии с законом."

Теперь я хочу извлечь все ключевые слова/фразы, которые встречаются в keyword_list. Кроме того, я также хочу извлечь похожие ключевые фразы (под «похожими» я имею в виду похожие по контексту или значению, но сформулированные иначе). Таким образом, логика/модель должны иметь возможность извлекать следующие термины:

output = ["текущие операции", "ваше имя", "ваша работа", "Контракт требует", "ущерб, нанесенный имуществу", "в соответствии с законом"]

Мы видим, что текущие операции и ваше имя присутствуют в keyword_list, и, следовательно, извлекаются.

Но ваша работа, Контракт требует, ущерб, нанесенный имуществу, в соответствии с законом также извлекаются, потому что они имеют то же значение/контекст, что и ваша работа, требуется по контракту или соглашению, ущерб имуществу, в пределах, разрешенных законом.

Для полностью совпадающих фраз (текущие операции и ваше имя) я написал логику, которая использует регулярные выражения для сопоставления фраз. Но для фраз, которые имеют то же значение/контекст, но сформулированы иначе, я не знаю, как действовать. Я думаю, что машинное обучение или подход глубокого обучения будут подходящими здесь, но я не знаю, какой именно подход!

Любая помощь будет высоко оценена!

Question 2

Вы можете использовать библиотеку sentence transformer, чтобы рассчитать сходство между различными фразами. Она также работает для многосоставных токенов.

from sentence_transformers import SentenceTransformer, util
import compress_fasttext
import numpy as np

mpnet_v2 = SentenceTransformer('all-mpnet-base-v2')

sentence1 = "ущерб имуществу"
sentence2 = "ущерб, нанесенный имуществу"

# кодируем предложения, чтобы получить их эмбеддинги
embeb_r_large1 = mpnet_v2.encode(sentence1, convert_to_tensor=True)

# вычисляем коэффициенты сходства двух эмбеддингов
mpnetv2_score = util.pytorch_cos_sim(embeb_r_large1, embeb_r_large2)

print(f'коэффициент сходства : {mpnetv2_score}')

#результат
#коэффициент сходства : 0.8635872602462769

Извлечь фразы/ключевые слова, которые ПОДОБНЫ списку ключевых слов/фраз на Python, из документа.

Вопрос или проблема

Ответ или решение

1. Прямое сопоставление

2. Семантическая схожесть

Пример кода для извлечения семантически похожих фраз

Возможные улучшения и уточнения

Заключение