Семантический поиск

Question 1

Мы пытаемся решить проблему, связанную с семантическим поиском в нашем наборе данных, т.е. у нас есть данные, специфичные для конкретной области (например: предложения, касающиеся автомобилей)

Наши данные представляют собой просто набор предложений, и мы хотим ввести фразу и получить предложения, которые:

Похожи на эту фразу
Содержат часть предложения, которая похожа на фразу
Предложение, имеющее контекстуально схожие значения

Давайте я приведу пример: предположим, я ищу фразу “Покупка автомобиля”, я должен получить такие предложения:

Я никогда не думал, что покупка автомобиля может занять меньше 30 минут для подписания и покупки.

Я нашел автомобиль, который мне понравился, а процесс покупки был простым и легким.

Мне абсолютно не нравилось ходить по магазинам автомобилей, но сегодня я рад, что я это сделал.

Я хочу подчеркнуть, что мы ищем контекстное сходство, а не просто поиск слов с помощью силы.

Если в предложении используются другие слова, то оно также должно быть найдено.

Вот что мы уже попробовали:

Open Semantic Search (https://www.opensemanticsearch.org/) проблема, с которой мы столкнулись, заключалась в генерации онтологии из имеющихся у нас данных, или, в связи с этим, в поиске доступной онтологии из различных областей нашего интереса.
Elastic Search (BM25 + Vectors (tf-idf)), мы пробовали это, где он дал несколько предложений, но точность была не очень высокой. Точность была плохой. Мы пробовали на ручной кураторской выборке, он смог получить только около 10% предложений.
Мы пробовали разные эмбеддинги, такие как те, которые упомянуты в https://github.com/UKPLab/sentence-transformers, а также посмотрели пример https://github.com/UKPLab/sentence-transformers/blob/master/examples/application_semantic_search.py и пытались оценить на основе нашего набора, кураторского человеком, и это также имело очень низкую точность.
Мы пробовали ELMO (https://towardsdatascience.com/elmo-contextual-language-embedding-335de2268604) это было лучше, но все же точность была ниже, чем мы ожидали, и возникает когнитивная нагрузка, чтобы решить, какое косинусное значение ниже, которого мы не должны рассматривать предложения. Это также касается пункта 3.

Любая помощь будет ценна. Большое спасибо за помощь заранее.

Question 2

Похожи на эту фразу

Вы можете попробовать Phrase-BERT для эмбеддингов фраз.

Статья: Ван, Шуфан, Лорен Томпсон и Мохит Ийер. “Phrase-BERT: Улучшенные эмбеддинги фраз из BERT с приложением к исследованию корпуса.” EMNLP 2021.
Код.

В статье также упоминаются предыдущие связанные работы, например, SentBERT и SpanBERT.

Question 3

Одним из вариантов является алгоритм расстояния перемещения слов (WMD). WMD может находить расстояние между двумя документами значимым образом, даже когда они не имеют общих слов, находя наиболее эффективный способ перемещения распределения одного документа к другому документу. Алгоритм WMD может использовать любые эмбеддинги слов или фраз.

Семантический поиск

Вопрос или проблема

Ответ или решение

Семантический поиск: Решение проблемы извлечения контекста

1. Основные понятия семантического поиска

2. Рекомендации по улучшению семантического поиска

a. Использование Phrase-BERT

b. Word Mover’s Distance (WMD)

c. Применение современных моделей языковой обработки

3. Построение онтологии

4. Оценка и отладка систем

Заключение