Data Science
Как выбрать «лучший» алгоритм обучения без учителя для кластеризации моего конкретного набора данных?
00
Вопрос или проблема Я хочу кластеризовать набор данных без предварительного знания о правильном количестве кластеров. Для разных алгоритмов (например, k-means, GMM и т.д.) я могу перебирать различные значения и пытаться найти лучшее решение для любого
Data Science
Можно ли вывести зависимость между переменными из данных? И если да, то как?
00
Вопрос или проблема У меня есть набор данных $X$, который состоит из $m$ векторов $\vec{x}$ с $n$ компонентами, имеющими действительные значения. Каждая компонента вектора лежит в соответствующем предопределенном интервале допустимых значений, который
Data Science
Результаты иерархического процесса Дирихле
00
Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.
Data Science
Методы прогнозирования/предсказания для качественных данных?
00
Вопрос или проблема У меня есть набор данных о предупреждениях о продуктах питания, состоящий из номинальных качественных переменных, таких как тип предупреждения, страна происхождения, предпринятые действия и т.д., а также дата записи предупреждения.
Data Science
Вычисление LOF для больших данных
00
Вопрос или проблема У меня есть большой набор данных (сотни миллионов записей, объемом в десятки гигабайт), и я хотел бы использовать LOF для задачи обнаружения аномалий (исследую разные методы для академических целей), обучаясь на этом наборе данных
Data Science
Как я могу создать новый столбец с двоичными значениями из разреженной матрицы TfidfVectorizer?
00
Вопрос или проблема У меня в настоящее время есть объект разреженной матрицы TfidfVectorizer, длина которого составляет 1000. Сейчас он отображается так: (0, 833) 0.0125811983337 (0, 273) 0.017346359033 (0, 602) 0.0150870927018 (0, 336) 0.
Data Science
Как отделить периодические данные от временных рядов?
00
Вопрос или проблема В настоящее время я работаю над задачей классификации упражнений в спортзале на основе данных акселерометра. Я пытаюсь модульно извлечь окна, чтобы обучить свою модель на основе метрик в пределах окна (которое должно содержать одно
Data Science
R NbClust для Python?
00
Вопрос или проблема Кто-нибудь знает о эквиваленте на Python для пакета на R, NbClust? Я ищу способ определить оптимальное количество кластеров для многих ‘похожих наборов данных’, и NbClust звучит хорошо, но он для R, а я использую Python.
Data Science
Как подготовить данные, в которых каждая выходная строка зависит от нескольких входных строк?
00
Вопрос или проблема Моя цель — предсказать значение Y на основе нескольких значений X1 и X2 для каждого наблюдения Y. В моем примере я хочу предсказать, объявит ли клиент о банкротстве (таблица 1) на основе лимитов и балансов его кредитных карт (таблица 2).
Data Science
Существует ли какой-либо набор данных, содержащий список программного обеспечения для Windows и категорию, к которой относится каждое из них?
00
Вопрос или проблема Мне нужен был набор данных, который перечисляет множество программ для Windows в соответствии с их категориями для проекта. Например: anaconda: разработка программного обеспечения, roblox: игры, VLC: видеоплеер и т.
Data Science
Разделение данных на признаки/метки и обучение/тестирование после чтения из csv файла.
00
Вопрос или проблема Мне нужно прочитать данные из файла CSV, а затем разделить эти данные на признаки и метки, а затем на обучающую и тестовую выборку. Однако возникает несколько проблем снова и снова. Ниже приведен код, который я пытался использовать
Data Science
Набор данных имеет коэффициент асимметрии = 1 с пропущенными данными. Стандартное отклонение вокруг медианы равно 1,5. Сколько данных будет затронуто?
00
Вопрос или проблема Нет другой информации о данных, не указано, является ли оно унивариантным, бивариантным и т.д., также не указан тип распределения. Недавно я наткнулся на этот вопрос, мне бы хотелось узнать, как асимметрия влияет на процент не затронутых данных.
Data Science
Кортеж данных против векторa атрибутов в добыче данных
00
Вопрос или проблема Название, в общем. Из книги “Основы извлечения данных: концепции и техники”, страница 24 описывает кортежи данных и вектор атрибутов следующим образом: Если объекты данных хранятся в базе данных, они являются кортежами данных.
Data Science
Понимание этого сообщения об ошибке
00
Вопрос или проблема Я использую книгу и видео, чтобы научиться использовать метод KNN для классификации фильмов по их жанрам. Вот мой код: import numpy as np import pandas as pd r_cols = ['user_id', 'movie_id', 'rating'] ratings = pd.
Data Science
Извлечение ключевых слов из pdf-файла с помощью Python
01
Вопрос или проблема У меня есть pdf файл (ссылка ниже). Мне нужно извлечь из него ключевые слова, а также узнать их частоту в pdf файле. Например, 'Java':42, 'наследование':3. Мне нужно сохранить ключевые слова с их весами в excel таблице.
Data Science
Хадуп, Спарк и Облако
00
Вопрос или проблема Похоже, Hadoop, Spark и разные версии облаков предлагают возможности для хранения и анализа больших данных. Существуют статьи, сравнивающие Hadoop и Spark (например, эта статья). Также есть статьи, которые обсуждают сервисы на AWS
Data Science
Как я могу убедиться в своем значении R^2?
00
Вопрос или проблема У меня есть набор данных с 10 столбцами и 158 строками. Я пытаюсь предсказать мой тестовый набор данных, который состоит из 1 столбца и 158 строк. Я провел кросс-валидации, поиск по сетке и использовал алгоритм ElasticNet.
Data Science
Инсайты между двумя столбцами/переменными в Dataframe
00
Вопрос или проблема У меня есть данные в двух колонках: одна – диапазон старого кредитного рейтинга (диапазон входных оценок) и новая кредитная оценка (cvsc100). Как мне получить информацию из обоих? Где старый – это диапазон значений, а другая колонка –
Data Science
Может ли таблица фактов иметь отношение 1:1 с таблицей измерений?
00
Вопрос или проблема Я пытаюсь создать небольшую таблицу фактов в области здравоохранения с следующей информацией [patientid], [organid], [value] Каждый [patientid] уникален для этого пациента, но в системе доступно только 10 [organid] (сердце, левое легкое
Data Science
Использование iGraph для создания модели распределения
00
Вопрос или проблема Я хотел бы проанализировать распределение клиентов магазина, если магазин закрыт или прекращен. Рассмотрим следующие примерные данные; | ShopID | MonthlyCVisitCount | Lat | Lng | -------------------------------------------------------- | A1 | 15000 | 39.