Как лучше всего сопоставить похожие n-граммы?

Question 1

Я пытаюсь сопоставить похожие n-граммы, используя Wordnet и синсеты. Например: старший брат и старший брат или сестра должны соответствовать одной сущности.

Какой был бы лучший способ реализовать это? Я думал об этом и пока пришел только к грубому стратегическому подходу, проверяя каждый синсет каждого слова и пытаясь найти похожее слово или добавляя их как новую сущность.

Мне интересно, существуют ли лучшие методы реализации этого?

Для 1-граммы:

from nltk.corpus import wordnet as wn
from nltk.stem import WordNetLemmatizer
l = WordNetLemmatizer()

older="older"
elder="elder"
older_lemma = l.lemmatize(older, pos=wn.ADJ)
elder_lemma = l.lemmatize(elder, pos=wn.ADJ)


for syn in wn.synsets(older_lemma):
    if elder_lemma in syn.lemma_names():
        print(syn)

В идеале я хотел бы расширить это до n-грамм и ищу лучший способ сделать это.

Правка: я не ищу решения на основе векторов.

Я думаю о каком-то грубом, но быстром алгоритме схожести, который даст мне грубое представление о том, насколько близки могут быть два слова/синсета. Таким образом, я мог бы устранить большинство абсолютно несхожих слов, экономя время. Я не уверен, существует ли это.

Question 2

Вам стоит проверить алгоритм word2vec, который может сопоставлять слова с семантическим векторным пространством, так что слова, используемые в похожем контексте, будут ближе друг к другу. Затем вы можете использовать косинусное сходство по векторам слов для расчета схожести.

Для расширения сравнения схожести на несколько слов или предложений, вы можете обратить внимание на расстояние между словами после обучения модели word2vec.

Недостаток вышеуказанного подхода заключается в том, что вам нужен большой текстовый корпус для обучения модели word2vec. Вы можете использовать что-то специфическое для вашей области или использовать открытые наборы данных (новостные статьи, книги Project Gutenberg, дампы Википедии).

Question 3

Лучшее решение – это определенно использование векторов слов.

Создайте свои собственные с помощью слоев Embedding() в Keras, например: возможно, это мощное, но, возможно, медленное решение.
Создайте свои собственные с помощью библиотеки gensim: очень быстро и просто, я бы выбрал это.
Скачайте предобученные векторы Glove от Google и примените их сразу: быстрое применение, но весь файл предобученных векторов очень большой.

Как только вы обучите векторы, вы можете представить каждую n-грамму в виде вектора эмбеддингов слов с формой:

( количество слов в n-грамме , размер вектора )

Если вы ищете какое-то очень грубое, но быстрое решение, вы могли бы усреднить векторы n-грамм в один и вычислить евклидово расстояние между ними. Это самый быстрый способ справиться с этой проблемой, на мой взгляд.

. – . – . – . –

ПРАВКА:

Еще одно быстрое решение, которое вы можете сделать прямо в gensim, это обучить doc2vec с нуля. Таким образом, вы немедленно получите вектор эмбеддинга для всего документа (т.е. n-граммы). Я никогда не пробовал doc2vec на небольших кусках текста, таких как n-граммы, но, возможно, стоит попробовать. В gensim это всего лишь несколько строк кода.

Как лучше всего сопоставить похожие n-граммы?

Вопрос или проблема

Ответ или решение

1. Использование Wordnet для n-грамм

2. Ограничение количества проверок с помощью предварительного фильтра

3. Использование семантического анализа

4. Использование моделей word embeddings

5. Реализация алгоритма

Заключение