Data Science
Предсказание слова из набора слов
00
Вопрос или проблема Моя задача заключается в том, чтобы предсказать релевантные слова на основе короткого описания идеи. Например, “SQL — это язык, специфичный для домена, используемый в программировании и предназначенный для управления данными
Data Science
Как предсказать настроение сущностей из твита?
00
Вопрос или проблема У меня есть файл JSON (tweets.json), который содержит твиты (предложения) вместе с именем автора. Цель 1: Извлечь самые частые сущности из твитов. Цель 2: Узнать настроение/полярность каждого автора по отношению к каждой из сущностей.
Data Science
Инициализация весов, которые являются поэлементным произведением нескольких переменных.
00
Вопрос или проблема В двухслойных персептронах, которые скользят по словам текста, таких как word2vec и fastText, высоты скрытых слоев могут быть произведением двух случайных переменных, таких как позиционные эмбеддинги и эмбеддинги слов (Mikolov et al.
Data Science
Возможно ли дообучение BERT на нескольких наборах данных? (Каждый набор данных имеет свою цель)
00
Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?
Data Science
Текстовая карта – Названия лекарств
00
Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.
Data Science
О чём статья
00
Вопрос или проблема У меня есть проблема, которую мне нужно решить. Она касается статей о футболе. Мне нужно определить, кто является главным героем в статье. У меня уже есть решение, которое я реализовал. Оно достаточно хорошее.
Data Science
Генерация текстов на уровне слов с использованием векторных представлений слов – вывод векторного слова вместо распределения вероятностей.
00
Вопрос или проблема Сейчас я изучаю тему генерации текста для своего университетского проекта. Я (конечно) решил использовать RNN, принимая последовательность токенов на входе с целью предсказать следующий токен, исходя из этой последовательности.
Data Science
HuggingFace Transformers выдает потерю: nan – точность: 0.0000e+00
00
Вопрос или проблема Я новичок на HuggingFace и подгоняю модель BERT (distilbert-base-cased) с использованием библиотеки Transformers, но значение функции потерь не снижается, вместо этого я получаю loss: nan - accuracy: 0.0000e+00.
Data Science
Сомнения в градиенте, проблема исчезающего градиента в обратном распространении ошибок.
00
Вопрос или проблема Насколько мне известно, в обратном распространении ошибка или градиент используются для обновления весов. В обратном распространении веса становятся небольшими относительно градиентов, что приводит к проблеме исчезающих градиентов.
Data Science
Классификация текстов с очень короткими строками
00
Вопрос или проблема У меня есть набор данных с короткими названиями профессий (например, «менеджер по маркетингу», «системный администратор» и т. д.) и соответствующими кодами профессий по переписи (например, 1006 Аналитики компьютерных систем).
Data Science
Классификация отсканированных документов в pdf-файлах с использованием глубокого обучения или NLP
00
Вопрос или проблема Я умею классифицировать изображения с помощью CNN, но у меня есть проблема: у меня есть несколько типов отсканированных документов в PDF-файле на разных страницах. Некоторые типы отсканированных документов присутствуют на нескольких страницах внутри PDF.
Data Science
Убедитесь, что обученные словесные вложения имеют высокую схожесть с конкретными словами.
00
Вопрос или проблема Я пробую свои силы в обучении модели Word2Vec с использованием gensim. Я создал простой файл для обучения, который по сути содержал одну и ту же строку, повторенную несколько раз развлечения фильмы Фильмы кино развлечения Фильмы развлечения
Data Science
Извлечение структурированных данных из полуструктурированных данных
00
Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.
Data Science
Проект по обработке русского языка: поиск релевантного набора данных
00
Вопрос или проблема Я ищу набор данных, связанный с банковской промышленностью, который включает следующую информацию: жалобы, управление счетами, переводы денег и ответы клиентов на акции. Я пытался найти такой набор данных на Kaggle, но не нашел ни
Data Science
Методы выборки для текстовых наборов данных (NLP)
00
Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>
Data Science
Существует ли токенизатор для токенизации кода на языке Swift в Python?
00
Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .
Data Science
Извлечение данных из библиометрической информации
00
Вопрос или проблема У меня есть набор библиометрических данных (ссылок). Я хочу извлечь имена авторов, названия и названия конференции/журнала из них. Поскольку стиль ссылок, используемый в разных статьях, варьируется, меня интересует, существуют ли уже
Data Science
Ресурсы для алгоритмов классификации текста
00
Вопрос или проблема Я извлекаю комментарии из Facebook (неуместные) и ищу алгоритм, который может классифицировать их контекст как негативный/позитивный/нейтральный. Вы можете представить вывод в виде двух столбцов. В первом столбце комментарий (существует)
Data Science
Как добавить слова в список слов английской модели в движке распознавания речи Julius?
00
Вопрос или проблема Я хочу добавить несколько английских слов в модель, но как я могу это сделать? https://github.com/julius-speech/julius Это, вероятно, невозможно, поскольку эта модель предназначена только для предсказания. Она не предназначена для обучения.
Data Science
Выбор количества тем (кластеров) в текстовых данных
00
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов