Data Science
Классификация с использованием текстов в качестве признаков
00
Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)
Data Science
Векторизатор текста, который захватывает смещение признаков в тексте.
00
Вопрос или проблема Я использую sklearn Tfifdfvectorizer для извлечения признаков из текста для классификации текста. Я считаю, что нужная мне информация, как правило, находится в начале документа, поэтому я хотел бы каким-то образом зафиксировать смещение
Data Science
TF-IDF для ранжирования документов
00
Вопрос или проблема Я работаю над ранжированием некоторых заголовков новостей (однаковая тема) в зависимости от того, сколько информации в них содержится. Я вычислил tf-idf значения для каждого слова в каждом документе в своем корпусе.
Data Science
Как оправдать логарифмически масштабированную частоту для tf в tf-idf?
00
Вопрос или проблема Я изучаю tf-idf (частота термина – обратная частота документа). Исходная логика для tf была простой: количество термина t / общее количество терминов в документе. Однако я столкнулся с логарифмически шкалированной частотой: log(1
Data Science
Работа с богатым словарным запасом и низкой средней частотой слов в NLP
00
Вопрос или проблема Какой лучший способ справиться с набором данных, который имеет богатый словарный запас и низкую среднюю частоту слов, показывающий низкую точность валидации? Читая online, я увидел, что многие люди рекомендуют удалить стоп-слова и
Data Science
Запуск PCA на основе признаков tf-idf?
00
Вопрос или проблема Хорошая ли идея применять PCA к атрибутам, полученным с помощью Tf-Idf? Tf-idf возвращает много атрибутов, поэтому в этом случае я считаю, что применять PCA, чтобы уменьшить количество измерений, – хорошая идея.
Data Science
Выравнивание тем / моделирование тем
00
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Является ли это хорошим подходом для классификации тикетов, которые содержат описание и логи?
00
Вопрос или проблема Я хочу классифицировать набор данных обращений в службу поддержки, которые в основном содержат текст в поле описания и иногда серверные логи в отдельном поле. Поле логов не всегда присутствует, но когда оно есть, это хороший индикатор
Data Science
Как объединить NLP и числовые данные для задачи линейной регрессии
00
Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов
Data Science
Классификация текстов с очень короткими строками
00
Вопрос или проблема У меня есть набор данных с короткими названиями профессий (например, «менеджер по маркетингу», «системный администратор» и т. д.) и соответствующими кодами профессий по переписи (например, 1006 Аналитики компьютерных систем).
Data Science
Существует ли токенизатор для токенизации кода на языке Swift в Python?
00
Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .
Data Science
Как использовать TF*IDF баллы для моей модели машинного обучения?
00
Вопрос или проблема Я применил TF*IDF к столбцу ‘Ad-topic line’ в моем наборе данных. Для каждой строки темы рекламы я получаю один и тот же вывод: Во-первых, я не могу понять вывод. Значения TF*IDF указаны справа, но что конкретно означают цифры в скобках?
Data Science
Учитывая два крупных корпуса текста из различных источников, существует ли принятый способ выявить различия в лексике (n-граммах) между ними?
00
Вопрос или проблема Имея два больших корпуса текста из разных источников, существует ли общепринятый способ выявить различия в vocabularies (n-граммах) между ними? То есть, чтобы получить результаты, которые говорят, например, что биграмма “
Data Science
Как сопоставить корпус со строкой слов, используя матрицу TF-IDF?
00
Вопрос или проблема Я пытаюсь сопоставить наборы слов с веб-сайтом, который имеет маркированные пункты, текст которых наиболее схож с ними. Я подумал, что можно сделать это следующим образом: собрать все документы из каждого маркированного пункта в один