data-mining
Data Science
Вопрос или проблема Вопрос Я не очень хорошо знаком с названиями распространенных алгоритмов в Data Science, и мне кажется, что это то, что часто используется, и поэтому должно иметь название – хочу ссылаться на его правильное имя, чтобы правильно документировать его в кодовой базе.
Data Science
Вопрос или проблема Вопрос Я не очень знаком с названиями общепринятых алгоритмов в Data Science, и мне кажется, что это то, что часто используется, и, следовательно, должно иметь название – хочу обратиться к его правильному названию ради правильной
Data Science
Вопрос или проблема Я анализирую набор данных в Python исключительно для учебных целей. В коде, который я написал ниже, я получаю некоторые ошибки, от которых не могу избавиться. Вот код: plt.plot(decade_mean.index, decade_mean.
Data Science
Вопрос или проблема Я использую ggplot, чтобы сравнить 114 уникальных исследований по определенной переменной, которая меня интересует. Вот что я использовал. ggplot(steps, aes(x=factor(edu))) + geom_bar(aes(y = (..count..), group = id_study,)) + facet_wrap(~id_study,)
Data Science
Вопрос или проблема У меня есть данные о продажах, однако их количество составляет порядка 500 миллионов строк. Я агрегирую эти данные по факторам, таким как местоположение, тип магазина, страна магазина, тип карты, и тогда агрегированная статистика выглядит
Data Science
Вопрос или проблема Возможно, это не очень хороший вопрос, но я бы все равно спросил, полезно ли проводить разведочный анализ данных (EDA) перед запуском алгоритма кластеризации? Я понимаю, что EDA помогает нам генерировать полезные и информативные инсайты
Data Science
Вопрос или проблема Я хочу кластеризовать набор данных без предварительного знания о правильном количестве кластеров. Для разных алгоритмов (например, k-means, GMM и т.д.) я могу перебирать различные значения и пытаться найти лучшее решение для любого
Data Science
Вопрос или проблема У меня есть набор данных $X$, который состоит из $m$ векторов $\vec{x}$ с $n$ компонентами, имеющими действительные значения. Каждая компонента вектора лежит в соответствующем предопределенном интервале допустимых значений, который
Data Science
Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.
Data Science
Вопрос или проблема У меня есть набор данных о предупреждениях о продуктах питания, состоящий из номинальных качественных переменных, таких как тип предупреждения, страна происхождения, предпринятые действия и т.д., а также дата записи предупреждения.
Data Science
Вопрос или проблема У меня есть большой набор данных (сотни миллионов записей, объемом в десятки гигабайт), и я хотел бы использовать LOF для задачи обнаружения аномалий (исследую разные методы для академических целей), обучаясь на этом наборе данных
Data Science
Вопрос или проблема У меня в настоящее время есть объект разреженной матрицы TfidfVectorizer, длина которого составляет 1000. Сейчас он отображается так: (0, 833) 0.0125811983337 (0, 273) 0.017346359033 (0, 602) 0.0150870927018 (0, 336) 0.
Data Science
Вопрос или проблема В настоящее время я работаю над задачей классификации упражнений в спортзале на основе данных акселерометра. Я пытаюсь модульно извлечь окна, чтобы обучить свою модель на основе метрик в пределах окна (которое должно содержать одно
Data Science
Вопрос или проблема Кто-нибудь знает о эквиваленте на Python для пакета на R, NbClust? Я ищу способ определить оптимальное количество кластеров для многих ‘похожих наборов данных’, и NbClust звучит хорошо, но он для R, а я использую Python.
Data Science
Вопрос или проблема Моя цель — предсказать значение Y на основе нескольких значений X1 и X2 для каждого наблюдения Y. В моем примере я хочу предсказать, объявит ли клиент о банкротстве (таблица 1) на основе лимитов и балансов его кредитных карт (таблица 2).
Data Science
Вопрос или проблема Мне нужен был набор данных, который перечисляет множество программ для Windows в соответствии с их категориями для проекта. Например: anaconda: разработка программного обеспечения, roblox: игры, VLC: видеоплеер и т.
Data Science
Вопрос или проблема Мне нужно прочитать данные из файла CSV, а затем разделить эти данные на признаки и метки, а затем на обучающую и тестовую выборку. Однако возникает несколько проблем снова и снова. Ниже приведен код, который я пытался использовать
Data Science
Вопрос или проблема Нет другой информации о данных, не указано, является ли оно унивариантным, бивариантным и т.д., также не указан тип распределения. Недавно я наткнулся на этот вопрос, мне бы хотелось узнать, как асимметрия влияет на процент не затронутых данных.
Data Science
Вопрос или проблема Название, в общем. Из книги “Основы извлечения данных: концепции и техники”, страница 24 описывает кортежи данных и вектор атрибутов следующим образом: Если объекты данных хранятся в базе данных, они являются кортежами данных.
Data Science
Вопрос или проблема Я использую книгу и видео, чтобы научиться использовать метод KNN для классификации фильмов по их жанрам. Вот мой код: import numpy as np import pandas as pd r_cols = ['user_id', 'movie_id', 'rating'] ratings = pd.