Data Science
Что мы понимаем под Положительным или Отрицательным в Анализе Настроений?
00
Вопрос или проблема Что мы имеем в виду в анализе настроений в НЛП, когда говорится, что предложение положительное или отрицательное? Думаю, мне нужно уточнить это в отношении любого другого параметра. Например, “iPhone хороший”
Data Science
Нормализация валюты для прогнозирования зарплаты
00
Вопрос или проблема У меня есть набор данных (350 тысяч данных) о сотрудниках из разных регионов за последние 10 лет. Набор данных состоит из их навыков, региона, в котором они находятся, отрасли, их текущей роли, их зарплаты в соответствующей валюте.
Data Science
ГММ в распознавании речи с использованием ГММ-ГММ
00
Вопрос или проблема Я пытаюсь решить/понять ASR, используя HMM-GMM. На абстрактном уровне я понимаю, что происходит, но я не понимаю, как GMM вписывается в это. У меня есть 5000 часов речи от одного пользователя. Я взял изображение выше из этой статьи.
Data Science
Какой алгоритм машинного обучения лучше всего работает с текстовыми данными и почему? Также какие метрики используются для оценки производительности модели?
00
Вопрос или проблема Я работаю над проектом – «анализ настроений в твитах». Есть 5 различных настроений – крайнеNegative, негативное, нейтральное, положительное и крайне положительное. Так что это, в основном, задача обработки естественного
Data Science
Можем ли мы обучить модель Dolly v-2 на большом объеме общего неразмеченного текста?
00
Вопрос или проблема Я знаком с концепциями машинного обучения и глубокого обучения и посмотрел на Dolly, а также запустил предобученную модель на ноутбуке Jupyter lab в Databricks. Однако, когда я смотрю на формат их тренировочного набора данных, все
Data Science
Как найти хороший словарь ругательств для английских слов
00
Вопрос или проблема Я ищу словарь нецензурной лексики для проекта по безопасности музыки. Я уже нашел хороший набор данных (https://github.com/surge-ai/profanity), но мне все еще нужны данные в этом формате, которые содержат больше категорий плохих слов
Data Science
Предложение по соответствию
00
Вопрос или проблема Я пытаюсь сравнить два предложения, которые могут или не могут быть на одну и ту же тему (продукт). Я пробовал несколько метрик, таких как косинусное сходство, расстояние и т. д., но результаты не впечатляют.
Data Science
О последнем декодирующем уровне в архитектуре трансформера
00
Вопрос или проблема Итак, в слое декодера трансформера, предположим, я предсказал 3 слова до сих пор, включая начальный токен, тогда последний слой декодера будет производить 3 вектора размера d-model, и только последний вектор пройдет через слой встраивания
Data Science
Существует ли обеспокоенность по поводу того, что предобученная модель может переобучиться на задаче дообучения, если имеются пересекающиеся данные предобучения и обучения?
00
Вопрос или проблема Допустим, моя языковая модель предварительно обучена на общем текстовом корпусе, и я хочу использовать её для какой-то конкретной задачи, для которой наборы данных также включены в общий корпус. Есть ли какие-либо опасения по поводу
Data Science
Анализ настроений новостных заголовков
00
Вопрос или проблема Я пытаюсь провести анализ настроений новостных заголовков о конкретной теме, упомянутой в них. Сначала я использовал библиотеку TextBlob для анализа настроений, чтобы сгенерировать оценку полярности. Но оценка полярности, генерируемая
Data Science
Сомнение в ELMO, BERT, Word2Vec
00
Вопрос или проблема Я прочитал ответ на Quora, где специалист по НЛП указал, что использование вложений ELMO и BERT в качестве входных данных для LSTM или некоторой RNN сводит на нет назначение ELMo и BERT. Я не уверен, что согласен с этим утверждением.
Data Science
Можно ли использовать трансформерные модели для обучения чат-ботов?
00
Вопрос или проблема Могут ли модели-трансформеры использоваться для обучения чат-ботов? Примечание – Я говорю о модели трансформера, которую Google выпустил в статье “Внимание — это всё, что вам нужно” Трансформер — это просто нейронная сеть.
Data Science
Копии постов LinkedIn – инструменты анализа текста
00
Вопрос или проблема Я хочу использовать данные своей работы – 1000+ различных копий с полной мета-информацией из LI. У нас есть платформа SaaS для амбассадоров бренда, и мы предоставляем им инструмент для создания этих копий и планирования их.
Data Science
Android: Библиотека NLP для распознавания дат в строках
00
Вопрос или проблема В настоящее время я работаю над андроид-приложением, которое должно автоматически записывать встречи, считывая входящие сообщения с вашего мобильного телефона. Мне удалось создать сервис, который отслеживает входящие сообщения, но
Data Science
Извлечение жаргона из текста
00
Вопрос или проблема У меня есть большой текстовый корпус (документация от компании), и я хочу извлечь термины, которые специфичны для этой области/бизнеса. Я могу сделать это с помощью TF или TF-IDF и ориентироваться на частоту слов, что не всегда надежно.
Data Science
Как мне собрать данные о законах дорожного движения ЕС?
00
Вопрос или проблема Я пытаюсь сделать проект, для которого мне нужен огромный корпус по праву дорожного движения ЕС, в частности по ограничениям скорости, знакам, общим правилам, правонарушениям, штрафам. Я нашел ресурсы, такие как Eur-lex, Европейская комиссия и т.
Data Science
Может ли маска внимания иметь значения между 0 и 1?
00
Вопрос или проблема Я новичок в моделях на основе внимания и хотел узнать больше о маске внимания в моделях НЛП. attention_mask: необязательный torch.LongTensor формы [batch_size, sequence_length], с индексами, выбранными из [0, 1].
Data Science
Производит ли нейронная сеть Word2Vec с методом skip-gram даже контекстные слова?
00
Вопрос или проблема Сначала позвольте мне установить, что такое CBoW и skip-gram. Вы можете пропустить этот раздел, если считаете его ненужным. Фон Мое понимание состоит в том, что Word2Vec представляет собой набор из двух алгоритмов: непрерывный мешок
Data Science
Как найти возможные подлежащие для данного глагола в области повседневных объектов
00
Вопрос или проблема Я ищу инструменты (возможно, в NLTK) или статьи, которые говорят о следующем: например. Ввод: Vase(Subject1) put(verb) Ответ, который я ищу: flower, water Существует ли инструмент, который может выдать субъекты (объекты), которые могут
Data Science
Суммаризация текста с ограниченным количеством слов
00
Вопрос или проблема Я изучаю техники суммирования и пока не нашел подход, чтобы ограничить длину резюме. Например, мне нужна функция суммирования, которая дает мне резюме длиной < 500 слов. Можете ли вы направить меня в правильном направлении?