Data Science
Обработка очень коротких и очень длинных последовательностей с помощью нейронной сети
00
Вопрос или проблема Я работаю над задачей многоклассовой классификации последовательностей. Мой набор данных состоит из последовательностей данных различной длины. Например, 1500 размеченных образцов: 500 точек данных принадлежат классу A, 500 классу B и 500 классу C.
Вопросы и ответы
Геометрическая интерпретация косинусного сходства
00
Вопрос или проблема Я рассчитала косинусное сходство между двумя документами очень простым способом, используя векторизацию TF-IDF в Python. Мне нужно визуализировать документы в виде векторного графика в 3D-пространстве. Как это, Вот код, который я использовала
Data Science
Как обучать NER LSTM на уровне отдельного предложения
00
Вопрос или проблема Мои документы представляют собой всего лишь одно предложение, содержащее одну аннотацию. Предложения с одинаковой именованной сущностью, конечно, похожи, но не по контексту. Примеры обучения NER (насколько мне известно) всегда имеют
Вопросы и ответы
Обнаружение заболеваний с помощью НЛП
00
Вопрос или проблема Я работаю над проектом, цель которого – определить название болезни из разных предложений. Мне нужны некоторые советы. Я ищу библиотеки, из которых я могу получить список названий болезней, чтобы по крайней мере обнаружить болезнь в своем датафрейме.
Data Science
Как K и V извлекаются из выходных данных энкодера в трансформере?
00
Вопрос или проблема Я пытался понять архитектуру трансформера из работы “Всё, что вам нужно — это внимание”. Работа показывает следующую архитектуру трансформера: Как $K$ и $V$ извлекаются из выходных данных кодировщика размерности $512$ (которые
Data Science
как обучить пользовательские векторы слов word2vec для поиска связанных статей?
00
Вопрос или проблема Я начинающий в машинном обучении. Мой проект заключается в создании поисковой системы на основе ИИ, которая показывает связанные статьи, когда мы ищем на сайте. Для этого я решил обучить свое собственное встраивание.
Data Science
Извлечь фразы/ключевые слова, которые ПОДОБНЫ списку ключевых слов/фраз на Python, из документа.
00
Вопрос или проблема ИЗМЕНЕНИЕ : Если бы мне нужно было сопоставить односоставные фразы, я мог бы сначала токенизировать текст из документа, а затем рассчитать косинусное сходство всех токенов со всеми ключевыми словами из keyword_list.
Data Science
Как использовать Word2Vec CBOW в статистическом алгоритме?
00
Вопрос или проблема Я видел несколько примеров использования CBOW в моделях нейронных сетей (хотя я их не понял). Я знаю, что Word2Vec не похож на BOW или TFIDF, так как для CBOW нет единственного значения, и все примеры, которые я видел, использовали нейронные сети.
Data Science
Почему совместное встраивание слов и изображений работает?
00
Вопрос или проблема Я часто вижу некоторые работы, где авторы выполняют поэлементное умножение векторного представления слов и изображений (например, изображение ниже). Почему эта реализация работает? Я не понимаю. Модель более сложная, чем поэлементное
Data Science
Как удалить неактуальную информацию из списков сущностей?
00
Вопрос или проблема Я хочу извлечь сущности, используя 5 списков сущностей, которые я собрал. Списки на Python содержат около миллиона элементов каждый. Списки следующие: национальность, организация, профессия, религия, хобби.
Data Science
Существует ли языковая модель, которая может принимать большие объемы табличных данных и отвечать на вопросы об этом?
00
Вопрос или проблема Я исследовал языковые модели, которые могут работать с табличными данными. Моя основная цель – иметь модель, которая сможет отвечать на простые вопросы о моих данных. Примером может быть наличие данных о продажах домашних хозяйств
Data Science
Как вы на самом деле оцениваете систему поиска?
00
Вопрос или проблема Допустим, у меня есть база знаний, я разделил ее и сгенерировал вопрос-ответ с помощью qa_generator и отфильтровал с помощью qa_critic, так что у меня есть вопрос, ответ и контекст. Теперь, создавая систему rag (в частности, извлечение)
Data Science
Плохая работа архитектуры кодировщика-декодировщика на основе внимания для заполнения слотов
00
Вопрос или проблема В настоящее время я провожу исследование методов, которые решают проблемы классификации намерений и заполнения слотов в NLP. Одним из подходов, с которым я решил начать эксперименты, предложен в следующей статье: https://arxiv.
Data Science
Как лучше всего сопоставить похожие n-граммы?
00
Вопрос или проблема Я пытаюсь сопоставить похожие n-граммы, используя Wordnet и синсеты. Например: старший брат и старший брат или сестра должны соответствовать одной сущности. Какой был бы лучший способ реализовать это? Я думал об этом и пока пришел
Data Science
Изменение словоизменений
00
Вопрос или проблема Это может быть необычный вопрос. У меня есть ситуация, в которой я создаю перефразировки с помощью системы на основе правил. Одно преобразование, которое я хотел бы реализовать, избавляет от легких глаголов, как так: a) Стивен сделал
Data Science
Создание собственного списка стоп-слов из определенного сообщества, достаточно ли tf-idf?
00
Вопрос или проблема Так что у меня есть несколько твитов из моей страны, и я хочу составить свой собственный список стоп-слов. Достаточно ли хорош tf-idf? Есть ли какие-либо статистические методы, которые были бы лучше? Оценки tf-idf являются нормализованными частотами.
Data Science
Получение ответов на пункты (нумерованные элементы) из текста с помощью NLP
00
Вопрос или проблема Это связано с извлечением информации. В реальных данных документы написаны в виде пунктов/нумерованных элементов. Например, Как создать сайт: - Получите DNS - Получите хостинг - Разверните WordPress или какой-то сайт .
Data Science
Обучение с подкреплением в обработке естественного языка для чат-ботов
00
Вопрос или проблема Есть ли у кого-то успешная реализация обучения с подкреплением для обработки естественного языка? Я ищу чат-ботов, которые могут учиться автоматически. Пытался искать в интернете, но нашел очень few статей, таких как Обучение с подкреплением
Data Science
Внимание к нескольким областям одного и того же предложения
00
Вопрос или проблема Рассмотрим некоторые предложения ниже: “Обмен данными — это замечательная платформа, чтобы получить ответы на вопросы, связанные с наукой о данных, и она помогает изучать различные концепции тоже.”
Data Science
Общий подход к сравнению сходства согласных и согласных кластеров с первых принципов?
00
Вопрос или проблема Я недавно задавал несколько вопросов на StackOverflow, последний из которых был Что не так с этими вычислениями взвешенной суммы Жаккара для сравнения произношения согласных кластеров? В чем я совершенно запутался, так это в основах