Data Science
Сгенерировать аналогичный текст на основе категории или похожих текстов.
00
Вопрос или проблема Я пытаюсь создать аналогичный текст на основе категории или сгенерировать текст, комбинируя схожие тексты в новый текст. Я проверял несколько задач в области обработки естественного языка, таких как генерация вопросов, но они не подходят для моей задачи.
Data Science
Как добавить стоп-слова в язык, не указанный в фильтрации текста в Orange?
00
Вопрос или проблема В окне “Предобработка текста” Orange, в разделе Фильтрация, стоп-слова предоставлены в списке языков. Мы также можем загрузить собственный список стоп-слов. Возможно ли также загрузить собственный список стоп-слов на языке
Data Science
Анализ ассоциативных правил по двум корзинам покупок
00
Вопрос или проблема Я хорошо знаком с методом ассоциативных правил, но мне нужно использовать его для связи МЕЖДУ двумя корзинами покупок, а не для поиска поддержки ВНУТРИ одной корзины покупок. Представьте, что клиенты приходят в Магазин A и покупают
Data Science
Классификация продукции по иерархическим категориям на основе множества параметров и нестандартных описаний.
00
Вопрос или проблема Я хочу начать проект по машинному обучению в своей компании, и для аналитиков затрат большая проблема заключается в классификации продуктов, которые покупатели заказывают для обслуживания, инструментов, сырья и тому подобного, так
Data Science
Как выбрать порог для Phrases в gensim при генерации биграмм?
00
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.
Data Science
Текстовая карта – Названия лекарств
00
Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.
Data Science
Извлечение структурированных данных из полуструктурированных данных
00
Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.
Data Science
Извлечение данных из библиометрической информации
00
Вопрос или проблема У меня есть набор библиометрических данных (ссылок). Я хочу извлечь имена авторов, названия и названия конференции/журнала из них. Поскольку стиль ссылок, используемый в разных статьях, варьируется, меня интересует, существуют ли уже
Data Science
Выбор количества тем (кластеров) в текстовых данных
00
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов
Data Science
Учитывая два крупных корпуса текста из различных источников, существует ли принятый способ выявить различия в лексике (n-граммах) между ними?
00
Вопрос или проблема Имея два больших корпуса текста из разных источников, существует ли общепринятый способ выявить различия в vocabularies (n-граммах) между ними? То есть, чтобы получить результаты, которые говорят, например, что биграмма “
Data Science
Как соотносятся текстовая аналитика, обработка естественного языка и такие задачи, как токенизация, лемматизация, удаление стоп-слов и т.д.?
00
Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими
Data Science
Рекуррентные нейронные сети над несколькими документами во времени
00
Вопрос или проблема Так что в моей голове у меня есть идея о том, как должна выглядеть эта архитектура, или, по крайней мере, как она должна себя вести, но мне трудно ее реализовать. Позвольте мне описать проблему, и если кто-то имеет идеи о том, как
Data Science
Как выявить новые описания вакансий/объявления из набора документов, имея набор уже размеченных описаний вакансий/объявлений.
00
Вопрос или проблема Предположим, у меня есть набор уже размеченных документов — некоторые из них являются описаниями вакансий (это документы интереса), а некоторые нет. Мне интересно, какой метод позволит мне построить модель, которая сможет обобщать
Data Science
Считывание корпуса из csv-файла в Orange3
00
Вопрос или проблема У меня есть текст твитов в файле Excel: каждая строка — это один твит. Как мне посмотреть этот корпус в Orange3? Я не понимаю, почему я не могу просто увидеть этот корпус. Как видно на изображении ниже, канал красный, и в Просмотре