tfidf - ответы на вопросы

Data Science

KDE на TF-IDF – чувствительная полоса пропускания

00

Вопрос или проблема Я кластеризую текст на основе признаков TF-IDF и DBSCAN (основанный на плотности) и пытаюсь ранжировать точки на основе их ‘принадлежности’ к кластеру. Поскольку моя кластеризация основана на плотности и мои точки могут

Data Science

Расчёт tf-idf даёт неправильные результаты.

00

Вопрос или проблема Я постоянно получаю 49 как мой ответ. В случае если вам нужен образец, вот код, который я использую: # Problem 8: Corrected TF-IDF Calculation TF = np.array([ [3, 0, 2, 1], [1, 2, 0, 1], [2, 1, 3, 5] ], dtype=np.

Data Science

Как лучше всего встраивать большие и шумные документы?

00

Вопрос или проблема У меня есть большой корпус документов (веб-страниц), собранных с различных сайтов, каждый из которых содержит от 10k до 30k символов. Я обрабатываю их, чтобы извлечь как можно больше релевантного текста, но они никогда не бывают идеальными.

Data Science

Классификация с использованием текстов в качестве признаков

00

Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)

Data Science

Векторизатор текста, который захватывает смещение признаков в тексте.

00

Вопрос или проблема Я использую sklearn Tfifdfvectorizer для извлечения признаков из текста для классификации текста. Я считаю, что нужная мне информация, как правило, находится в начале документа, поэтому я хотел бы каким-то образом зафиксировать смещение

Data Science

TF-IDF для ранжирования документов

00

Вопрос или проблема Я работаю над ранжированием некоторых заголовков новостей (однаковая тема) в зависимости от того, сколько информации в них содержится. Я вычислил tf-idf значения для каждого слова в каждом документе в своем корпусе.

Data Science

Как оправдать логарифмически масштабированную частоту для tf в tf-idf?

00

Вопрос или проблема Я изучаю tf-idf (частота термина – обратная частота документа). Исходная логика для tf была простой: количество термина t / общее количество терминов в документе. Однако я столкнулся с логарифмически шкалированной частотой: log(1

Data Science

Работа с богатым словарным запасом и низкой средней частотой слов в NLP

00

Вопрос или проблема Какой лучший способ справиться с набором данных, который имеет богатый словарный запас и низкую среднюю частоту слов, показывающий низкую точность валидации? Читая online, я увидел, что многие люди рекомендуют удалить стоп-слова и

Data Science

Запуск PCA на основе признаков tf-idf?

00

Вопрос или проблема Хорошая ли идея применять PCA к атрибутам, полученным с помощью Tf-Idf? Tf-idf возвращает много атрибутов, поэтому в этом случае я считаю, что применять PCA, чтобы уменьшить количество измерений, – хорошая идея.

Data Science

Выравнивание тем / моделирование тем

00

Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды

Data Science

Является ли это хорошим подходом для классификации тикетов, которые содержат описание и логи?

00

Вопрос или проблема Я хочу классифицировать набор данных обращений в службу поддержки, которые в основном содержат текст в поле описания и иногда серверные логи в отдельном поле. Поле логов не всегда присутствует, но когда оно есть, это хороший индикатор

Data Science

Как объединить NLP и числовые данные для задачи линейной регрессии

00

Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов

Data Science

Классификация текстов с очень короткими строками

00

Вопрос или проблема У меня есть набор данных с короткими названиями профессий (например, «менеджер по маркетингу», «системный администратор» и т. д.) и соответствующими кодами профессий по переписи (например, 1006 Аналитики компьютерных систем).

Data Science

Существует ли токенизатор для токенизации кода на языке Swift в Python?

00

Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .

Data Science

Как использовать TF*IDF баллы для моей модели машинного обучения?

00

Вопрос или проблема Я применил TF*IDF к столбцу ‘Ad-topic line’ в моем наборе данных. Для каждой строки темы рекламы я получаю один и тот же вывод: Во-первых, я не могу понять вывод. Значения TF*IDF указаны справа, но что конкретно означают цифры в скобках?

Data Science

Учитывая два крупных корпуса текста из различных источников, существует ли принятый способ выявить различия в лексике (n-граммах) между ними?

00

Вопрос или проблема Имея два больших корпуса текста из разных источников, существует ли общепринятый способ выявить различия в vocabularies (n-граммах) между ними? То есть, чтобы получить результаты, которые говорят, например, что биграмма “

Data Science

Как сопоставить корпус со строкой слов, используя матрицу TF-IDF?

00

Вопрос или проблема Я пытаюсь сопоставить наборы слов с веб-сайтом, который имеет маркированные пункты, текст которых наиболее схож с ними. Я подумал, что можно сделать это следующим образом: собрать все документы из каждого маркированного пункта в один