nlp - ответы на вопросы - Page 6 of 13

Data Science

Что мы понимаем под Положительным или Отрицательным в Анализе Настроений?

00

Вопрос или проблема Что мы имеем в виду в анализе настроений в НЛП, когда говорится, что предложение положительное или отрицательное? Думаю, мне нужно уточнить это в отношении любого другого параметра. Например, “iPhone хороший”

Data Science

Нормализация валюты для прогнозирования зарплаты

00

Вопрос или проблема У меня есть набор данных (350 тысяч данных) о сотрудниках из разных регионов за последние 10 лет. Набор данных состоит из их навыков, региона, в котором они находятся, отрасли, их текущей роли, их зарплаты в соответствующей валюте.

Data Science

ГММ в распознавании речи с использованием ГММ-ГММ

00

Вопрос или проблема Я пытаюсь решить/понять ASR, используя HMM-GMM. На абстрактном уровне я понимаю, что происходит, но я не понимаю, как GMM вписывается в это. У меня есть 5000 часов речи от одного пользователя. Я взял изображение выше из этой статьи.

Data Science

Какой алгоритм машинного обучения лучше всего работает с текстовыми данными и почему? Также какие метрики используются для оценки производительности модели?

00

Вопрос или проблема Я работаю над проектом – «анализ настроений в твитах». Есть 5 различных настроений – крайнеNegative, негативное, нейтральное, положительное и крайне положительное. Так что это, в основном, задача обработки естественного

Data Science

Можем ли мы обучить модель Dolly v-2 на большом объеме общего неразмеченного текста?

00

Вопрос или проблема Я знаком с концепциями машинного обучения и глубокого обучения и посмотрел на Dolly, а также запустил предобученную модель на ноутбуке Jupyter lab в Databricks. Однако, когда я смотрю на формат их тренировочного набора данных, все

Data Science

Как найти хороший словарь ругательств для английских слов

00

Вопрос или проблема Я ищу словарь нецензурной лексики для проекта по безопасности музыки. Я уже нашел хороший набор данных (https://github.com/surge-ai/profanity), но мне все еще нужны данные в этом формате, которые содержат больше категорий плохих слов

Data Science

Предложение по соответствию

00

Вопрос или проблема Я пытаюсь сравнить два предложения, которые могут или не могут быть на одну и ту же тему (продукт). Я пробовал несколько метрик, таких как косинусное сходство, расстояние и т. д., но результаты не впечатляют.

Data Science

О последнем декодирующем уровне в архитектуре трансформера

00

Вопрос или проблема Итак, в слое декодера трансформера, предположим, я предсказал 3 слова до сих пор, включая начальный токен, тогда последний слой декодера будет производить 3 вектора размера d-model, и только последний вектор пройдет через слой встраивания

Data Science

Существует ли обеспокоенность по поводу того, что предобученная модель может переобучиться на задаче дообучения, если имеются пересекающиеся данные предобучения и обучения?

00

Вопрос или проблема Допустим, моя языковая модель предварительно обучена на общем текстовом корпусе, и я хочу использовать её для какой-то конкретной задачи, для которой наборы данных также включены в общий корпус. Есть ли какие-либо опасения по поводу

Data Science

Анализ настроений новостных заголовков

00

Вопрос или проблема Я пытаюсь провести анализ настроений новостных заголовков о конкретной теме, упомянутой в них. Сначала я использовал библиотеку TextBlob для анализа настроений, чтобы сгенерировать оценку полярности. Но оценка полярности, генерируемая

Data Science

Сомнение в ELMO, BERT, Word2Vec

00

Вопрос или проблема Я прочитал ответ на Quora, где специалист по НЛП указал, что использование вложений ELMO и BERT в качестве входных данных для LSTM или некоторой RNN сводит на нет назначение ELMo и BERT. Я не уверен, что согласен с этим утверждением.

Data Science

Можно ли использовать трансформерные модели для обучения чат-ботов?

00

Вопрос или проблема Могут ли модели-трансформеры использоваться для обучения чат-ботов? Примечание – Я говорю о модели трансформера, которую Google выпустил в статье “Внимание — это всё, что вам нужно” Трансформер — это просто нейронная сеть.

Data Science

Копии постов LinkedIn – инструменты анализа текста

00

Вопрос или проблема Я хочу использовать данные своей работы – 1000+ различных копий с полной мета-информацией из LI. У нас есть платформа SaaS для амбассадоров бренда, и мы предоставляем им инструмент для создания этих копий и планирования их.

Data Science

Android: Библиотека NLP для распознавания дат в строках

00

Вопрос или проблема В настоящее время я работаю над андроид-приложением, которое должно автоматически записывать встречи, считывая входящие сообщения с вашего мобильного телефона. Мне удалось создать сервис, который отслеживает входящие сообщения, но

Data Science

Извлечение жаргона из текста

00

Вопрос или проблема У меня есть большой текстовый корпус (документация от компании), и я хочу извлечь термины, которые специфичны для этой области/бизнеса. Я могу сделать это с помощью TF или TF-IDF и ориентироваться на частоту слов, что не всегда надежно.

Data Science

Как мне собрать данные о законах дорожного движения ЕС?

00

Вопрос или проблема Я пытаюсь сделать проект, для которого мне нужен огромный корпус по праву дорожного движения ЕС, в частности по ограничениям скорости, знакам, общим правилам, правонарушениям, штрафам. Я нашел ресурсы, такие как Eur-lex, Европейская комиссия и т.

Data Science

Может ли маска внимания иметь значения между 0 и 1?

00

Вопрос или проблема Я новичок в моделях на основе внимания и хотел узнать больше о маске внимания в моделях НЛП. attention_mask: необязательный torch.LongTensor формы [batch_size, sequence_length], с индексами, выбранными из [0, 1].

Data Science

Производит ли нейронная сеть Word2Vec с методом skip-gram даже контекстные слова?

00

Вопрос или проблема Сначала позвольте мне установить, что такое CBoW и skip-gram. Вы можете пропустить этот раздел, если считаете его ненужным. Фон Мое понимание состоит в том, что Word2Vec представляет собой набор из двух алгоритмов: непрерывный мешок

Data Science

Как найти возможные подлежащие для данного глагола в области повседневных объектов

00

Вопрос или проблема Я ищу инструменты (возможно, в NLTK) или статьи, которые говорят о следующем: например. Ввод: Vase(Subject1) put(verb) Ответ, который я ищу: flower, water Существует ли инструмент, который может выдать субъекты (объекты), которые могут

Data Science

Суммаризация текста с ограниченным количеством слов

00

Вопрос или проблема Я изучаю техники суммирования и пока не нашел подход, чтобы ограничить длину резюме. Например, мне нужна функция суммирования, которая дает мне резюме длиной < 500 слов. Можете ли вы направить меня в правильном направлении?