Какой лучший способ использовать word2vec для оценки сходства двуязычного текста?

Question 1

У меня возникла проблема, когда мне нужно вычислять сходства между двуязычными (английскими и французскими) текстами. “База данных” выглядит так:

+-+-+-+
| |F|E|
+-+-+-+
|1|X|X|
+-+-+-+
|2| |X|
+-+-+-+
|3|X| |
+-+-+-+
|4|X| |
+-+-+-+
|5| |X|
+-+-+-+
|6|X|X|
+-+-+-+
|7|X| |
+-+-+-+

это означает, что у меня есть английские и французские тексты (переменные длинные одиночные предложения) для каждого “элемента”, причем либо в обоих вариантах (в данном случае версии являются свободными переводами друг друга), либо только на одном языке.

Задача состоит в том, чтобы найти ближайший ID элемента для любого поступающего нового предложения независимо от фактического языка предложения в “базе данных” или поступающего предложения (то есть совпадающее предложение в “базе данных” необязательно должно быть на том же языке, что и поступающее предложение, если их смысл наиболее близок). Надеюсь, моя цель объяснена ясно.

Изначально я планировал создать word2vec с нуля для обоих языков (словарь довольно специфичный, так что я предпочел бы свой собственный word2vec) и находить сходства только для соответствующего языка для каждого нового предложения, но это исключило бы всех кандидатов из элементов, где отсутствуют предложения на соответствующем языке.

Поэтому я задумываюсь, возможно ли создать общее кодирование word2vec для объединенного корпуса (сам метод word2vec не зависит от языка), но я не могу понять, будет ли такое решение более высоким по качеству.

Кроме того, количество предложений не очень велико (около 10.000), возможно, генерация word2vec с нуля — не лучшая идея с одной стороны, но с другой стороны, в корпусах действительно специфические термины.

Question 2

Эта статья от Amazon объясняет, как можно использовать выровненные двуязычные эмбединги слов для создания оценки сходства между двумя предложениями на разных языках. Используются субтитры к фильмам в четырех языковых парах (английский-немецкий, французский, португальский и испанский), чтобы показать эффективность их системы.

“Unsupervised Quality Estimation Without Reference Corpus for Subtitle Machine Translation Using Word Embeddings”

Question 3

Вы можете взять предобученный эмбеддер на нескольких языках, а затем проверить расстояния между кодировками. Существует неофициальный порт pypi Facebook’s LASER. Он не зависит от языка и предобучен на en и fr.

from laserembeddings import Laser

laser = Laser()

sentence_en = 'My name is Hendrik'
sentence_fr = "Je suis Hendrik"

en_embedding = laser.embed_sentences([sentence_en], lang='en')[0]
fr_embedding = laser.embed_sentences([sentence_fr], lang='fr')[0]

Эмбеддинги представляют собой массивы NumPy из 1024 элементов. Вы можете рассчитать некоторую метрику между эмбеддингами, например, эвклидово расстояние.

import numpy as np

distance = np.linalg.norm(en_embedding - fr_embedding)

Хорошо то, что у вас определено сходство в вашей базе данных, так что вы можете изучить порог для вашей метрики расстояния и точно проверить, насколько хорошо она работает.

Какой лучший способ использовать word2vec для оценки сходства двуязычного текста?

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение