Data Science
Запуск PCA на основе признаков tf-idf?
00
Вопрос или проблема Хорошая ли идея применять PCA к атрибутам, полученным с помощью Tf-Idf? Tf-idf возвращает много атрибутов, поэтому в этом случае я считаю, что применять PCA, чтобы уменьшить количество измерений, – хорошая идея.
Data Science
Выравнивание тем / моделирование тем
00
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Является ли это хорошим подходом для классификации тикетов, которые содержат описание и логи?
00
Вопрос или проблема Я хочу классифицировать набор данных обращений в службу поддержки, которые в основном содержат текст в поле описания и иногда серверные логи в отдельном поле. Поле логов не всегда присутствует, но когда оно есть, это хороший индикатор
Data Science
Как объединить NLP и числовые данные для задачи линейной регрессии
00
Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов
Data Science
Классификация текстов с очень короткими строками
00
Вопрос или проблема У меня есть набор данных с короткими названиями профессий (например, «менеджер по маркетингу», «системный администратор» и т. д.) и соответствующими кодами профессий по переписи (например, 1006 Аналитики компьютерных систем).
Data Science
Существует ли токенизатор для токенизации кода на языке Swift в Python?
00
Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .
Data Science
Как использовать TF*IDF баллы для моей модели машинного обучения?
00
Вопрос или проблема Я применил TF*IDF к столбцу ‘Ad-topic line’ в моем наборе данных. Для каждой строки темы рекламы я получаю один и тот же вывод: Во-первых, я не могу понять вывод. Значения TF*IDF указаны справа, но что конкретно означают цифры в скобках?
Data Science
Учитывая два крупных корпуса текста из различных источников, существует ли принятый способ выявить различия в лексике (n-граммах) между ними?
00
Вопрос или проблема Имея два больших корпуса текста из разных источников, существует ли общепринятый способ выявить различия в vocabularies (n-граммах) между ними? То есть, чтобы получить результаты, которые говорят, например, что биграмма “
Data Science
Как сопоставить корпус со строкой слов, используя матрицу TF-IDF?
00
Вопрос или проблема Я пытаюсь сопоставить наборы слов с веб-сайтом, который имеет маркированные пункты, текст которых наиболее схож с ними. Я подумал, что можно сделать это следующим образом: собрать все документы из каждого маркированного пункта в один