data-mining - ответы на вопросы

Data Science

Название алгоритма, который отображает строковый столбец в численный столбец на основе агрегации с другим численным столбцом, аналогично TF-IDF.

00

Вопрос или проблема Вопрос Я не очень хорошо знаком с названиями распространенных алгоритмов в Data Science, и мне кажется, что это то, что часто используется, и поэтому должно иметь название – хочу ссылаться на его правильное имя, чтобы правильно документировать его в кодовой базе.

Data Science

Я ищу название алгоритма, который я реализовал, похожего на TF-IDF.

00

Вопрос или проблема Вопрос Я не очень знаком с названиями общепринятых алгоритмов в Data Science, и мне кажется, что это то, что часто используется, и, следовательно, должно иметь название – хочу обратиться к его правильному названию ради правильной

Data Science

Кто-нибудь может объяснить следующую ошибку в моем коде на Python?

00

Вопрос или проблема Я анализирую набор данных в Python исключительно для учебных целей. В коде, который я написал ниже, я получаю некоторые ошибки, от которых не могу избавиться. Вот код: plt.plot(decade_mean.index, decade_mean.

Data Science

Как построить график с использованием facet_wrap на нескольких страницах в .pdf-файлах в R CRAN

00

Вопрос или проблема Я использую ggplot, чтобы сравнить 114 уникальных исследований по определенной переменной, которая меня интересует. Вот что я использовал. ggplot(steps, aes(x=factor(edu))) + geom_bar(aes(y = (..count..), group = id_study,)) + facet_wrap(~id_study,)

Data Science

Могу ли я кластеризовать агрегированный набор данных (группированный по) и применить уменьшение размерности?

00

Вопрос или проблема У меня есть данные о продажах, однако их количество составляет порядка 500 миллионов строк. Я агрегирую эти данные по факторам, таким как местоположение, тип магазина, страна магазина, тип карты, и тогда агрегированная статистика выглядит

Data Science

Какую ценность можно извлечь из проведения разведывательного анализа данных на признаках (и, следовательно, данных) перед кластеризацией?

00

Вопрос или проблема Возможно, это не очень хороший вопрос, но я бы все равно спросил, полезно ли проводить разведочный анализ данных (EDA) перед запуском алгоритма кластеризации? Я понимаю, что EDA помогает нам генерировать полезные и информативные инсайты

Data Science

Как выбрать «лучший» алгоритм обучения без учителя для кластеризации моего конкретного набора данных?

00

Вопрос или проблема Я хочу кластеризовать набор данных без предварительного знания о правильном количестве кластеров. Для разных алгоритмов (например, k-means, GMM и т.д.) я могу перебирать различные значения и пытаться найти лучшее решение для любого

Data Science

Можно ли вывести зависимость между переменными из данных? И если да, то как?

00

Вопрос или проблема У меня есть набор данных $X$, который состоит из $m$ векторов $\vec{x}$ с $n$ компонентами, имеющими действительные значения. Каждая компонента вектора лежит в соответствующем предопределенном интервале допустимых значений, который

Data Science

Результаты иерархического процесса Дирихле

00

Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.

Data Science

Методы прогнозирования/предсказания для качественных данных?

00

Вопрос или проблема У меня есть набор данных о предупреждениях о продуктах питания, состоящий из номинальных качественных переменных, таких как тип предупреждения, страна происхождения, предпринятые действия и т.д., а также дата записи предупреждения.

Data Science

Вычисление LOF для больших данных

00

Вопрос или проблема У меня есть большой набор данных (сотни миллионов записей, объемом в десятки гигабайт), и я хотел бы использовать LOF для задачи обнаружения аномалий (исследую разные методы для академических целей), обучаясь на этом наборе данных

Data Science

Как я могу создать новый столбец с двоичными значениями из разреженной матрицы TfidfVectorizer?

00

Вопрос или проблема У меня в настоящее время есть объект разреженной матрицы TfidfVectorizer, длина которого составляет 1000. Сейчас он отображается так: (0, 833) 0.0125811983337 (0, 273) 0.017346359033 (0, 602) 0.0150870927018 (0, 336) 0.

Data Science

Как отделить периодические данные от временных рядов?

00

Вопрос или проблема В настоящее время я работаю над задачей классификации упражнений в спортзале на основе данных акселерометра. Я пытаюсь модульно извлечь окна, чтобы обучить свою модель на основе метрик в пределах окна (которое должно содержать одно

Data Science

R NbClust для Python?

00

Вопрос или проблема Кто-нибудь знает о эквиваленте на Python для пакета на R, NbClust? Я ищу способ определить оптимальное количество кластеров для многих ‘похожих наборов данных’, и NbClust звучит хорошо, но он для R, а я использую Python.

Data Science

Как подготовить данные, в которых каждая выходная строка зависит от нескольких входных строк?

00

Вопрос или проблема Моя цель — предсказать значение Y на основе нескольких значений X1 и X2 для каждого наблюдения Y. В моем примере я хочу предсказать, объявит ли клиент о банкротстве (таблица 1) на основе лимитов и балансов его кредитных карт (таблица 2).

Data Science

Существует ли какой-либо набор данных, содержащий список программного обеспечения для Windows и категорию, к которой относится каждое из них?

00

Вопрос или проблема Мне нужен был набор данных, который перечисляет множество программ для Windows в соответствии с их категориями для проекта. Например: anaconda: разработка программного обеспечения, roblox: игры, VLC: видеоплеер и т.

Data Science

Разделение данных на признаки/метки и обучение/тестирование после чтения из csv файла.

00

Вопрос или проблема Мне нужно прочитать данные из файла CSV, а затем разделить эти данные на признаки и метки, а затем на обучающую и тестовую выборку. Однако возникает несколько проблем снова и снова. Ниже приведен код, который я пытался использовать

Data Science

Набор данных имеет коэффициент асимметрии = 1 с пропущенными данными. Стандартное отклонение вокруг медианы равно 1,5. Сколько данных будет затронуто?

00

Вопрос или проблема Нет другой информации о данных, не указано, является ли оно унивариантным, бивариантным и т.д., также не указан тип распределения. Недавно я наткнулся на этот вопрос, мне бы хотелось узнать, как асимметрия влияет на процент не затронутых данных.

Data Science

Кортеж данных против векторa атрибутов в добыче данных

00

Вопрос или проблема Название, в общем. Из книги “Основы извлечения данных: концепции и техники”, страница 24 описывает кортежи данных и вектор атрибутов следующим образом: Если объекты данных хранятся в базе данных, они являются кортежами данных.

Data Science

Понимание этого сообщения об ошибке

00

Вопрос или проблема Я использую книгу и видео, чтобы научиться использовать метод KNN для классификации фильмов по их жанрам. Вот мой код: import numpy as np import pandas as pd r_cols = ['user_id', 'movie_id', 'rating'] ratings = pd.