Data Science
Как отсортировать многоуровневый DataFrame в pandas по определённому столбцу?
00
Вопрос или проблема Я хотел бы отсортировать многоиндексный DataFrame pandas по столбцу, но не хочу, чтобы весь DataFrame сортировался сразу. Я предпочел бы отсортировать по одному из индексов. Вот пример того, что я имею в виду: Ниже приведен пример
Data Science
Результаты иерархического процесса Дирихле
00
Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.
Data Science
Устранение шума с использованием фильтрации методом большинства голосов
00
Вопрос или проблема У меня есть набор данных с шумом в метках, который я хочу очистить путем фильтрации голосованием большинством/консенсусом. Это означает, что я разделю данные на K-фолдов и обучу ансамблевую модель. Затем, используя предсказания по
Data Science
Инструменты ручной очистки данных
00
Вопрос или проблема Я пишу ETL конвейер для геопространственных данных в формате place_name,address,longitude,latitude,id_linking_to_other_dataset На последнем этапе конвейера я хотел бы применить ручные преобразования, предложенные рецензентами.
Data Science
Как я могу создать новый столбец с двоичными значениями из разреженной матрицы TfidfVectorizer?
00
Вопрос или проблема У меня в настоящее время есть объект разреженной матрицы TfidfVectorizer, длина которого составляет 1000. Сейчас он отображается так: (0, 833) 0.0125811983337 (0, 273) 0.017346359033 (0, 602) 0.0150870927018 (0, 336) 0.
Data Science
Какой dtype будет уместен для данных о дате, когда они описываются как “дискретные”?
00
Вопрос или проблема Недавно я сдавал практический экзамен на получение квалификации Data Scientist Associate в DataCamp. Всего было 5 заданий, и я смог выполнить все, кроме одного. В этом задании требовалось очистить DataFrame для продаж домов.
Data Science
Обработка выбросов, когда большинство значений равно 0.
00
Вопрос или проблема Просто вопрос, я знаю, что когда мы строим график распределения числовых данных, те, кто падает за пределы ящика диаграммы (точка в форме ромба), считаются выбросами. Однако я столкнулся с случаем, когда большинство моих данных для этого атрибута равно 0.
Data Science
Как подготовить данные, в которых каждая выходная строка зависит от нескольких входных строк?
00
Вопрос или проблема Моя цель — предсказать значение Y на основе нескольких значений X1 и X2 для каждого наблюдения Y. В моем примере я хочу предсказать, объявит ли клиент о банкротстве (таблица 1) на основе лимитов и балансов его кредитных карт (таблица 2).
Data Science
Как удалить объект с плавающей запятой в датафрейме? Например: “зима 2021” на “зима”
00
Вопрос или проблема У меня есть столбец, в котором я хочу удалить год и оставить только сезон. Пример: “зима 2021” станет “зима”. Попробуйте df['Column'] = df['Column'].str.replace('\d+', '') это удалит все цифры в столбце Попробуйте
Data Science
Как обрабатывать идентификационные переменные при разделении данных для машинного обучения?
00
Вопрос или проблема Я новичок в машинном обучении и работаю с данными международных спортивных соревнований. Я использовал техники создания реляционных данных в tidyverse, чтобы объединить несколько источников данных и создать набор данных на основе событий
Data Science
Группировка по 2 переменным и разворот распределения на основе 2 других.
00
Вопрос или проблема Выполняю расчеты на датафрейме и застрял, пытаясь вычислить несколько процентов. Пытаюсь добавить 3 дополнительные колонки для %POS/NEG/NEU. Например, сумма колонки Amount для всех наблюдений с направлением POS в обеих строках Drew &
Data Science
Понимание этого сообщения об ошибке
00
Вопрос или проблема Я использую книгу и видео, чтобы научиться использовать метод KNN для классификации фильмов по их жанрам. Вот мой код: import numpy as np import pandas as pd r_cols = ['user_id', 'movie_id', 'rating'] ratings = pd.
Data Science
Обработка пропущенных значений в колонке с текстовыми данными
00
Вопрос или проблема Я работал над задачей с контролируемым обучением машин, где в наборе данных есть числовые (цена), категориальные (категория) и текстовые данные (описание) в качестве признаков. Признак описания имеет около 30% пропущенных значений.
Data Science
Скошенность и куртозис
00
Вопрос или проблема Следует ли вычислять асимметрию и эксцесс до или после разделения на обучающую и тестовую выборки? Есть ли какие-либо последствия от выполнения этого до/после разделения на обучающую и тестовую выборки? Если вы хотите рассчитать статистику
Data Science
Группировка строк профилей с одинаковыми словами, но в различном порядке.
00
Вопрос или проблема У меня есть датафрейм, содержащий столбец типов профилей, который выглядит следующим образом: 0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript
Data Science
Необходим обзор: Методология очистки данных для временных рядов CGM – первый реальный набор данных
00
Вопрос или проблема Я работаю над обработкой данных непрерывного мониторинга глюкозы (CGM) из XDrip+ и буду признателен за отзывы о моей методологии очистки данных. Это мой первый опыт работы с “грязными” медицинскими данными из реального
Data Science
Как найти список категориальных столбцов, которые имеют одинаковые значения?
00
Вопрос или проблема Я хотел бы сделать что-то подобное тому, что мы делаем с loc() и строками. Хотя теперь я хочу получить столбцы с одинаковыми значениями. Или применить какой-то фильтр с уникальными значениями для поиска столбцов.
Data Science
Вы используете категориальные типы данных?
00
Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать
Data Science
Как преобразовать аббревиатуры префиксов названий городов?
00
Вопрос или проблема Существует ли какой-либо стандартный инструмент, библиотека или список для расширения сокращений названий городов? Например, “MT HOLLY” -> “MOUNT HOLLY” или “ST MICHAELS”
Data Science
Недостающие данные в обучающем наборе и тестовом наборе
00
Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют