NLP для вычисления коэффициента схожести между предложениями длиной максимум 5-6 слов.

Question 1

Я ищу относительно простой алгоритм NLP, который помог бы мне оценить степень схожести между двумя предложениями. Эти предложения обычно содержат примерно от 1 до 5 слов.

Контекст:

Пользователь может создавать столько категорий, сколько захочет, чтобы сгруппировать свои фотографии. Я заметил, что многие из этих категорий пустые, и, изучая чуть глубже, вижу, что у многих категорий, созданных пользователем, почти идентичные имена, например: FRANCE VS FRANC | SUMMER VS SUMER | BEACH VS BEACH (СЕРДЦЕ ЭМОДЗИ).

Одно из предположений заключается в том, что пользователь создает категорию с орфографической ошибкой, и вместо удаления создает новую.

Цель:

Квантовать количество пар категорий с высокой степенью схожести на уровне пользователя.

Таким образом, мой вопрос по сути двоичен:

какой простой алгоритм NLP мог бы довольно хорошо справиться с этой задачей, не будучи каким-то сложным нейронным сетевым решением, которое использует такая компания, как Google? Слышал о косинусной схожести для векторного пространства, но не уверен
какой был бы подходящий порог для коэффициентов схожести? Я полагаю, это субъективно, но буду признателен за любые советы

Question 2

Для орфографических ошибок расстояние Левенштейна является хорошим началом. Эта метрика по сути вычисляет расстояние между двумя словами в терминах замен, удалений и вставок.

Например, “bear” можно написать как “fear” с одной заменой (замена “b” на “f”). В вашем случае, FRANC—это просто слово FRANCE с удалением (буквы “E”). Вы можете установить подходящий порог в зависимости от длины предложения. Например, для более коротких предложений можно установить меньший порог (расстояние Левенштейна равно 1), в то время как для предложений из 5 слов можно установить порог в 3 или 4.

Эта библиотека позволяет легко вычислять расстояние Левенштейна в виде процента от общей длины слова. Например, в упомянутом выше примере с “bear”/”fear” слова схожи на 75% (3 символа остаются одинаковыми из 4 символов в целом). Вы можете поэкспериментировать с порогом в процентах, который лучше всего подходит для вас, хотя я бы рекомендовал настраивать порог в зависимости от длины предложения.

Question 3

Чтобы вычислить это с использованием косинусной схожести, вам необходимо сначала получить вектор отдельных предложений. Это можно сделать разными способами, от простого алгоритма TF-IDF до получения эмбеддингов из заранее обученной модели NLP. Как только вы получите вектор, косинусная схожесть является хорошей мерой для оценки схожести между двумя предложениями.

Что касается поиска подходящего порога, нет универсального правила, но вы можете использовать эвристики и ручной отбор, чтобы попробовать различные пороги, начиная с высоких значений, таких как 0.9, и постепенно пробовать другие, чтобы увидеть, что работает для вашей задачи.

Question 4

Для вычисления коэффициентов схожести между 2 короткими предложениями “Fuzz” будет работать хорошо.

Схожесть строк Самый простой способ сравнить две строки—это измерение расстояния редактирования.

Например, следующие две строки довольно похожи: NEW YORK METS NEW YORK MEATS

m = SequenceMatcher(None, "NEW YORK METS", "NEW YORK MEATS")
m.ratio() ⇒ 0.962962962963

Что дает очень высокое значение из-за их схожести.

Частичная схожесть строк

fuzz.ratio(“NEW YORK METS”, “NEW YORK YANKEES”) ⇒ 75

Источник для дальнейшего изучения

https://chairnerd.seatgeek.com/fuzzywuzzy-fuzzy-string-matching-in-python/

https://pypi.org/project/fuzzywuzzy/

https://github.com/seatgeek/thefuzz

NLP для вычисления коэффициента схожести между предложениями длиной максимум 5-6 слов.

Вопрос или проблема

Ответ или решение

Определение проблемы

Расширенные методы

Рекомендации по порогу

Заключение и ресурсы