semantic-similarity - ответы на вопросы

Data Science

В RAG, для большого набора данных, какое сходство работает? Почему? как решить проблему с размером матрицы в косинусном сходстве?

00

Вопрос или проблема Если мы хотим реализовать RAG для большого набора данных, какое сходство работает? Почему? Также как справиться с проблемой размера матрицы в косинусном сходстве? Ответ или решение Вопрос о выборе подходящей меры сходства и обработке

Data Science

Семантическая сеть с использованием word2vec

00

Вопрос или проблема У меня есть тысячи заголовков, и я хотел бы построить семантическую сеть с использованием word2vec, в частности файлов Google News. Мои предложения выглядят так: Заголовки Собаки — лучшие друзья людей Собака погибла из-за несчастного

Data Science

Сиамские сети против семантического сходства (возможно, gensim)

00

Вопрос или проблема Я пытаюсь понять сети сиамского типа. В этом векторе вычисляется значение для объекта (скажем, изображения), и затем применяется метрика расстояния (скажем, манхэттенское расстояние) к двум векторам, полученным нейронной сетью(ями).

Data Science

Поиск семантических дубликатов в наборе данных

00

Вопрос или проблема У меня есть одна интересная проблема, которую нужно решить прямо сейчас: У меня есть набор данных, содержащий тексты сообщений об ошибках. Каждая ошибка может быть записана совершенно по-разному. Сейчас мне нужно выяснить, есть ли

Data Science

Какую модель использовать, чтобы различать имена с одинаковыми словами?

00

Вопрос или проблема Для моей задачи мне нужна модель, которая может различать должности, содержащие одни и те же слова. Модель BERT “msmarco-MiniLM-L-12-v3” демонстрирует высокую косинусную схожесть для позиций: “

Data Science

Существует ли способ обучить Doc2Vec на корпусе документов и иметь возможность взять новый документ и увидеть, насколько он похож на обученный корпус?

00

Вопрос или проблема У меня есть идея проекта, в котором я обучаю множество документов с помощью Doc2Vec, а затем беру роман, входящий в документ, и в идеале могу узнать, насколько он похож на документы, предоставленные для обучения в целом, или насколько хорошо он “

Data Science

Как найти векторное представление для каждого дескриптора?

01

Вопрос или проблема Данные кубов хорошо известны в области экстремальной классификации. Каждое изображение имеет набор дескрипторов. В общей сложности набор данных содержит 312 дескрипторов. Вы можете найти список дескрипторов в этом файле.

Data Science

Нужно ли масштабировать категориальные признаки с однозначным кодированием при использовании их вместе с текстовыми признаками для определения семантического сходства?

00

Вопрос или проблема Моя цель – определить текстовое сходство с использованием нескольких признаков. Некоторые из признаков являются текстовыми, для чего я использую (Tfhub 2.0) универсальный энкодер предложений. Есть и другие категориальные признаки

Data Science

Обучите модель spaCy для семантического сходства.

00

Вопрос или проблема Я пытаюсь обучить модель spaCy с целью вычисления семантического сходства, но не получаю результатов, которых ожидал. Я создал два текстовых файла, которые содержат множество предложений с новым термином “

Data Science

Семантический поиск

00

Вопрос или проблема Мы пытаемся решить проблему, связанную с семантическим поиском в нашем наборе данных, т.е. у нас есть данные, специфичные для конкретной области (например: предложения, касающиеся автомобилей) Наши данные представляют собой просто

Data Science

Как рассчитать семантическую схожесть между субтитрами видео?

00

Вопрос или проблема Я собираюсь рассчитать точность подписи, сгенерированной путем сравнения ее с несколькими эталонными предложениями. Например, подписи для одного видео следующие: Эти подписи предназначены только для одного и того же видео.