similarity - ответы на вопросы

Data Science

00

Вопрос или проблема Я пытаюсь создать систему, где пользователь приходит на платформу, выбирает тему (несколько заранее определенных тем), и тогда мы соединяем его с любым случайным пользователем онлайн, который выбрал ту же тему.

Data Science

Изучение сходства представлений

00

Вопрос или проблема Меня интересует платформа для изучения сходства различных входных представлений на основе некоторого общего контекста. Я изучал word2vec, SVD и другие рекомендательные системы, которые более или менее делают то, что мне нужно.

Data Science

Как можно выполнить STS (Семантическое текстовое сходство) на неразмеченном наборе данных с использованием глубокого обучения?

00

Вопрос или проблема Как реализовать STS (Семантическое Текстовое Сходство) на неразмеченном наборе данных? Столбец набора данных содержит Unique_id, text1 (содержит абзац) и text2 (содержит абзац). Пример: Представление столбца: Unique_id | Text1 | Text2

Data Science

Какой лучший способ выбрать подходящую модель для сравнения документов?

00

Вопрос или проблема У нас есть разные предобученные модели, такие как BERT, USE, ELMo, Word2Vec, FastText и т. д., у нас есть документы разных размеров (большие, средние, маленькие). Теперь мы хотим провести сравнение документов.

Data Science

Оценка сходств и различий групп после PCA

00

Вопрос или проблема Цель состоит в оценке сходства и различия между 6 известными группами. Исходные данные начинались с 6 известных групп и 2700+ переменных, все на шкале от 0 до 100. Я выполнил PCA, чтобы уменьшить более чем 2700 переменных до 5 главных

Data Science

Какой наилучший метод для обнаружения синонимов?

00

Вопрос или проблема В обработке естественного языка и вычислительной лингвистике какие методы считаются передовыми для извлечения похожих слов? Может кто-нибудь направить меня к этим ресурсам? Современные достижения в обнаружении синонимов склонны быть

Data Science

Способ проведения голосования и выбора кандидата на основе ближайших соседей

00

Вопрос или проблема Я работаю над проектом, где использую FAISS для поиска n соседних векторов на основе вектора запроса. Обрабатываемые данные являются текстовыми и преобразуются с использованием модели машинного обучения для создания вектора перед тем, как попасть в FAISS.

Data Science

Фильтрация на основе содержания для рекомендаций по стажировкам без оценок пользователей — это осуществимо?

00

Вопрос или проблема Я разрабатываю функцию рекомендаций для платформы стажировок студентов. Студенты будут явно выбирать свои интересы и навыки во время регистрации, а рекрутеры будут публиковать предложения стажировок с соответствующими требованиями

Data Science

Группировка похожих классов для повышения точности, при этом максимизируя количество классов.

00

Вопрос или проблема Предположим, у меня есть множество различных классов, некоторые из которых связаны между собой. Моя модель имеет высокую точность классификации для некоторых классов, в то время как другие классы сложно предсказать.

Data Science

Матрица различий неметрических данных близости

00

Вопрос или проблема В настоящее время у нас есть упражнение по кодированию, в котором нас просят реализовать Постоянное Сдвиговое Встраивание (Статья). Это само по себе не является большой проблемой. Для алгоритма все, что вам нужно, это симметричная

Data Science

Анализ классификации текста на основе сходства

00

Вопрос или проблема Я прочитал много литературы по классификации текстов и различным подходам/моделям, особенно с использованием языка Python, но, вероятно, я все еще не понимаю, как построить модели и какие шаги для этого нужны.

Data Science

Мера схожести смоделированных временных рядов и наблюдаемых временных рядов

00

Вопрос или проблема В моей работе у меня есть наблюдаемая временная серия и смоделированные. Я хочу сравнить кривые света и проверить на сходство, чтобы выяснить, какая смоделированная кривая лучше всего соответствует, и какие параметры лучше всего моделируют кривую света.

Data Science

Метрика оценки для системы рекомендаций

00

Вопрос или проблема Я работаю над проектом, связанным с созданием системы рекомендации новостей. Я дошел до того, что количественно оценил взаимодействие пользователей с различными статьями на сайте, используя байесовскую функцию для определения склонности

Data Science

Преобразование значения сходства в значение несходства

00

Вопрос или проблема Предположим, у нас есть значения сходства между некоторой точкой данных в интервале $[0, 1]$. Как я могу преобразовать эти значения сходства в значения несходства в интервале $[0, ∞]$? Вы можете использовать $-\ln x$ в качестве преобразования.

Data Science

Выбор количества хешей для мин-генерации? Работа с очень разреженными данными и желание получить больше коллизий.

00

Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/

Data Science

Общий подход к сравнению сходства согласных и согласных кластеров с первых принципов?

00

Вопрос или проблема Я недавно задавал несколько вопросов на StackOverflow, последний из которых был Что не так с этими вычислениями взвешенной суммы Жаккара для сравнения произношения согласных кластеров? В чем я совершенно запутался, так это в основах

Data Science

Как сгруппировать признаки и написать пользовательскую “функцию расчета схожести”? Как к этому подойти?

00

Вопрос или проблема Я пытаюсь разобраться, как мне следует разработать “функцию вычисления аналогии”, которая будет вычислять сходство между двумя согласными или согласными кластеров. Текущий вопрос, который вы читаете, не о том, как на практике

Data Science

Совершенные пакеты Python, которые могут оценивать сходство языков

00

Вопрос или проблема Я пытаюсь оценить вероятность генерации конкретного предложения из большого набора предложений. Для этого я начинаю с простого подхода: обучения пользовательской n-gram языковой модели и расчета значений перплексии для списка предложений.

Data Science

Семантический поиск

00

Вопрос или проблема Мы пытаемся решить проблему, связанную с семантическим поиском в нашем наборе данных, т.е. у нас есть данные, специфичные для конкретной области (например: предложения, касающиеся автомобилей) Наши данные представляют собой просто

Data Science

Сходство изображений: Сходство смешанного вектора

00

Вопрос или проблема Чтобы определить схожесть между изображениями (продуктами), я хочу использовать подход нейронной сети, подобный TiefVision. Эта предобученная нейронная сеть по сути переводит изображения в векторы признаков, а затем создает меру схожести