Data Science
Система рекомендаций, которая соединяет пользователей друг с другом, стоит ли выбрать контентный метод или коллаборативную фильтрацию?
00
Вопрос или проблема Я пытаюсь создать систему, где пользователь приходит на платформу, выбирает тему (несколько заранее определенных тем), и тогда мы соединяем его с любым случайным пользователем онлайн, который выбрал ту же тему.
Data Science
Изучение сходства представлений
00
Вопрос или проблема Меня интересует платформа для изучения сходства различных входных представлений на основе некоторого общего контекста. Я изучал word2vec, SVD и другие рекомендательные системы, которые более или менее делают то, что мне нужно.
Data Science
Как можно выполнить STS (Семантическое текстовое сходство) на неразмеченном наборе данных с использованием глубокого обучения?
00
Вопрос или проблема Как реализовать STS (Семантическое Текстовое Сходство) на неразмеченном наборе данных? Столбец набора данных содержит Unique_id, text1 (содержит абзац) и text2 (содержит абзац). Пример: Представление столбца: Unique_id | Text1 | Text2
Data Science
Какой лучший способ выбрать подходящую модель для сравнения документов?
00
Вопрос или проблема У нас есть разные предобученные модели, такие как BERT, USE, ELMo, Word2Vec, FastText и т. д., у нас есть документы разных размеров (большие, средние, маленькие). Теперь мы хотим провести сравнение документов.
Data Science
Оценка сходств и различий групп после PCA
00
Вопрос или проблема Цель состоит в оценке сходства и различия между 6 известными группами. Исходные данные начинались с 6 известных групп и 2700+ переменных, все на шкале от 0 до 100. Я выполнил PCA, чтобы уменьшить более чем 2700 переменных до 5 главных
Data Science
Какой наилучший метод для обнаружения синонимов?
00
Вопрос или проблема В обработке естественного языка и вычислительной лингвистике какие методы считаются передовыми для извлечения похожих слов? Может кто-нибудь направить меня к этим ресурсам? Современные достижения в обнаружении синонимов склонны быть
Data Science
Способ проведения голосования и выбора кандидата на основе ближайших соседей
00
Вопрос или проблема Я работаю над проектом, где использую FAISS для поиска n соседних векторов на основе вектора запроса. Обрабатываемые данные являются текстовыми и преобразуются с использованием модели машинного обучения для создания вектора перед тем, как попасть в FAISS.
Data Science
Фильтрация на основе содержания для рекомендаций по стажировкам без оценок пользователей — это осуществимо?
00
Вопрос или проблема Я разрабатываю функцию рекомендаций для платформы стажировок студентов. Студенты будут явно выбирать свои интересы и навыки во время регистрации, а рекрутеры будут публиковать предложения стажировок с соответствующими требованиями
Data Science
Группировка похожих классов для повышения точности, при этом максимизируя количество классов.
00
Вопрос или проблема Предположим, у меня есть множество различных классов, некоторые из которых связаны между собой. Моя модель имеет высокую точность классификации для некоторых классов, в то время как другие классы сложно предсказать.
Data Science
Матрица различий неметрических данных близости
00
Вопрос или проблема В настоящее время у нас есть упражнение по кодированию, в котором нас просят реализовать Постоянное Сдвиговое Встраивание (Статья). Это само по себе не является большой проблемой. Для алгоритма все, что вам нужно, это симметричная
Data Science
Анализ классификации текста на основе сходства
00
Вопрос или проблема Я прочитал много литературы по классификации текстов и различным подходам/моделям, особенно с использованием языка Python, но, вероятно, я все еще не понимаю, как построить модели и какие шаги для этого нужны.
Data Science
Мера схожести смоделированных временных рядов и наблюдаемых временных рядов
00
Вопрос или проблема В моей работе у меня есть наблюдаемая временная серия и смоделированные. Я хочу сравнить кривые света и проверить на сходство, чтобы выяснить, какая смоделированная кривая лучше всего соответствует, и какие параметры лучше всего моделируют кривую света.
Data Science
Метрика оценки для системы рекомендаций
00
Вопрос или проблема Я работаю над проектом, связанным с созданием системы рекомендации новостей. Я дошел до того, что количественно оценил взаимодействие пользователей с различными статьями на сайте, используя байесовскую функцию для определения склонности
Data Science
Преобразование значения сходства в значение несходства
00
Вопрос или проблема Предположим, у нас есть значения сходства между некоторой точкой данных в интервале $[0, 1]$. Как я могу преобразовать эти значения сходства в значения несходства в интервале $[0, ∞]$? Вы можете использовать $-\ln x$ в качестве преобразования.
Data Science
Выбор количества хешей для мин-генерации? Работа с очень разреженными данными и желание получить больше коллизий.
00
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Общий подход к сравнению сходства согласных и согласных кластеров с первых принципов?
00
Вопрос или проблема Я недавно задавал несколько вопросов на StackOverflow, последний из которых был Что не так с этими вычислениями взвешенной суммы Жаккара для сравнения произношения согласных кластеров? В чем я совершенно запутался, так это в основах
Data Science
Как сгруппировать признаки и написать пользовательскую “функцию расчета схожести”? Как к этому подойти?
00
Вопрос или проблема Я пытаюсь разобраться, как мне следует разработать “функцию вычисления аналогии”, которая будет вычислять сходство между двумя согласными или согласными кластеров. Текущий вопрос, который вы читаете, не о том, как на практике
Data Science
Совершенные пакеты Python, которые могут оценивать сходство языков
00
Вопрос или проблема Я пытаюсь оценить вероятность генерации конкретного предложения из большого набора предложений. Для этого я начинаю с простого подхода: обучения пользовательской n-gram языковой модели и расчета значений перплексии для списка предложений.
Data Science
Семантический поиск
00
Вопрос или проблема Мы пытаемся решить проблему, связанную с семантическим поиском в нашем наборе данных, т.е. у нас есть данные, специфичные для конкретной области (например: предложения, касающиеся автомобилей) Наши данные представляют собой просто
Data Science
Сходство изображений: Сходство смешанного вектора
00
Вопрос или проблема Чтобы определить схожесть между изображениями (продуктами), я хочу использовать подход нейронной сети, подобный TiefVision. Эта предобученная нейронная сеть по сути переводит изображения в векторы признаков, а затем создает меру схожести