nlp - ответы на вопросы - Page 11 of 13

Data Science

00

Вопрос или проблема Моя задача заключается в том, чтобы предсказать релевантные слова на основе короткого описания идеи. Например, “SQL — это язык, специфичный для домена, используемый в программировании и предназначенный для управления данными

Data Science

Как предсказать настроение сущностей из твита?

00

Вопрос или проблема У меня есть файл JSON (tweets.json), который содержит твиты (предложения) вместе с именем автора. Цель 1: Извлечь самые частые сущности из твитов. Цель 2: Узнать настроение/полярность каждого автора по отношению к каждой из сущностей.

Data Science

Инициализация весов, которые являются поэлементным произведением нескольких переменных.

00

Вопрос или проблема В двухслойных персептронах, которые скользят по словам текста, таких как word2vec и fastText, высоты скрытых слоев могут быть произведением двух случайных переменных, таких как позиционные эмбеддинги и эмбеддинги слов (Mikolov et al.

Data Science

Возможно ли дообучение BERT на нескольких наборах данных? (Каждый набор данных имеет свою цель)

00

Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?

Data Science

Текстовая карта – Названия лекарств

00

Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.

Data Science

О чём статья

00

Вопрос или проблема У меня есть проблема, которую мне нужно решить. Она касается статей о футболе. Мне нужно определить, кто является главным героем в статье. У меня уже есть решение, которое я реализовал. Оно достаточно хорошее.

Data Science

Генерация текстов на уровне слов с использованием векторных представлений слов – вывод векторного слова вместо распределения вероятностей.

00

Вопрос или проблема Сейчас я изучаю тему генерации текста для своего университетского проекта. Я (конечно) решил использовать RNN, принимая последовательность токенов на входе с целью предсказать следующий токен, исходя из этой последовательности.

Data Science

HuggingFace Transformers выдает потерю: nan – точность: 0.0000e+00

00

Вопрос или проблема Я новичок на HuggingFace и подгоняю модель BERT (distilbert-base-cased) с использованием библиотеки Transformers, но значение функции потерь не снижается, вместо этого я получаю loss: nan - accuracy: 0.0000e+00.

Data Science

Сомнения в градиенте, проблема исчезающего градиента в обратном распространении ошибок.

00

Вопрос или проблема Насколько мне известно, в обратном распространении ошибка или градиент используются для обновления весов. В обратном распространении веса становятся небольшими относительно градиентов, что приводит к проблеме исчезающих градиентов.

Data Science

Классификация текстов с очень короткими строками

00

Вопрос или проблема У меня есть набор данных с короткими названиями профессий (например, «менеджер по маркетингу», «системный администратор» и т. д.) и соответствующими кодами профессий по переписи (например, 1006 Аналитики компьютерных систем).

Data Science

Классификация отсканированных документов в pdf-файлах с использованием глубокого обучения или NLP

00

Вопрос или проблема Я умею классифицировать изображения с помощью CNN, но у меня есть проблема: у меня есть несколько типов отсканированных документов в PDF-файле на разных страницах. Некоторые типы отсканированных документов присутствуют на нескольких страницах внутри PDF.

Data Science

Убедитесь, что обученные словесные вложения имеют высокую схожесть с конкретными словами.

00

Вопрос или проблема Я пробую свои силы в обучении модели Word2Vec с использованием gensim. Я создал простой файл для обучения, который по сути содержал одну и ту же строку, повторенную несколько раз развлечения фильмы Фильмы кино развлечения Фильмы развлечения

Data Science

Извлечение структурированных данных из полуструктурированных данных

00

Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.

Data Science

Проект по обработке русского языка: поиск релевантного набора данных

00

Вопрос или проблема Я ищу набор данных, связанный с банковской промышленностью, который включает следующую информацию: жалобы, управление счетами, переводы денег и ответы клиентов на акции. Я пытался найти такой набор данных на Kaggle, но не нашел ни

Data Science

Методы выборки для текстовых наборов данных (NLP)

00

Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>

Data Science

Существует ли токенизатор для токенизации кода на языке Swift в Python?

00

Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .

Data Science

Извлечение данных из библиометрической информации

00

Вопрос или проблема У меня есть набор библиометрических данных (ссылок). Я хочу извлечь имена авторов, названия и названия конференции/журнала из них. Поскольку стиль ссылок, используемый в разных статьях, варьируется, меня интересует, существуют ли уже

Data Science

Ресурсы для алгоритмов классификации текста

00

Вопрос или проблема Я извлекаю комментарии из Facebook (неуместные) и ищу алгоритм, который может классифицировать их контекст как негативный/позитивный/нейтральный. Вы можете представить вывод в виде двух столбцов. В первом столбце комментарий (существует)

Data Science

Как добавить слова в список слов английской модели в движке распознавания речи Julius?

00

Вопрос или проблема Я хочу добавить несколько английских слов в модель, но как я могу это сделать? https://github.com/julius-speech/julius Это, вероятно, невозможно, поскольку эта модель предназначена только для предсказания. Она не предназначена для обучения.

Data Science

Выбор количества тем (кластеров) в текстовых данных

00

Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов