data-cleaning - ответы на вопросы

Data Science

Как отсортировать многоуровневый DataFrame в pandas по определённому столбцу?

00

Вопрос или проблема Я хотел бы отсортировать многоиндексный DataFrame pandas по столбцу, но не хочу, чтобы весь DataFrame сортировался сразу. Я предпочел бы отсортировать по одному из индексов. Вот пример того, что я имею в виду: Ниже приведен пример

Data Science

Результаты иерархического процесса Дирихле

00

Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.

Data Science

Устранение шума с использованием фильтрации методом большинства голосов

00

Вопрос или проблема У меня есть набор данных с шумом в метках, который я хочу очистить путем фильтрации голосованием большинством/консенсусом. Это означает, что я разделю данные на K-фолдов и обучу ансамблевую модель. Затем, используя предсказания по

Data Science

Инструменты ручной очистки данных

00

Вопрос или проблема Я пишу ETL конвейер для геопространственных данных в формате place_name,address,longitude,latitude,id_linking_to_other_dataset На последнем этапе конвейера я хотел бы применить ручные преобразования, предложенные рецензентами.

Data Science

Как я могу создать новый столбец с двоичными значениями из разреженной матрицы TfidfVectorizer?

00

Вопрос или проблема У меня в настоящее время есть объект разреженной матрицы TfidfVectorizer, длина которого составляет 1000. Сейчас он отображается так: (0, 833) 0.0125811983337 (0, 273) 0.017346359033 (0, 602) 0.0150870927018 (0, 336) 0.

Data Science

Какой dtype будет уместен для данных о дате, когда они описываются как “дискретные”?

00

Вопрос или проблема Недавно я сдавал практический экзамен на получение квалификации Data Scientist Associate в DataCamp. Всего было 5 заданий, и я смог выполнить все, кроме одного. В этом задании требовалось очистить DataFrame для продаж домов.

Data Science

Обработка выбросов, когда большинство значений равно 0.

00

Вопрос или проблема Просто вопрос, я знаю, что когда мы строим график распределения числовых данных, те, кто падает за пределы ящика диаграммы (точка в форме ромба), считаются выбросами. Однако я столкнулся с случаем, когда большинство моих данных для этого атрибута равно 0.

Data Science

Как подготовить данные, в которых каждая выходная строка зависит от нескольких входных строк?

00

Вопрос или проблема Моя цель — предсказать значение Y на основе нескольких значений X1 и X2 для каждого наблюдения Y. В моем примере я хочу предсказать, объявит ли клиент о банкротстве (таблица 1) на основе лимитов и балансов его кредитных карт (таблица 2).

Data Science

Как удалить объект с плавающей запятой в датафрейме? Например: “зима 2021” на “зима”

00

Вопрос или проблема У меня есть столбец, в котором я хочу удалить год и оставить только сезон. Пример: “зима 2021” станет “зима”. Попробуйте df['Column'] = df['Column'].str.replace('\d+', '') это удалит все цифры в столбце Попробуйте

Data Science

Как обрабатывать идентификационные переменные при разделении данных для машинного обучения?

00

Вопрос или проблема Я новичок в машинном обучении и работаю с данными международных спортивных соревнований. Я использовал техники создания реляционных данных в tidyverse, чтобы объединить несколько источников данных и создать набор данных на основе событий

Data Science

Группировка по 2 переменным и разворот распределения на основе 2 других.

00

Вопрос или проблема Выполняю расчеты на датафрейме и застрял, пытаясь вычислить несколько процентов. Пытаюсь добавить 3 дополнительные колонки для %POS/NEG/NEU. Например, сумма колонки Amount для всех наблюдений с направлением POS в обеих строках Drew &

Data Science

Понимание этого сообщения об ошибке

00

Вопрос или проблема Я использую книгу и видео, чтобы научиться использовать метод KNN для классификации фильмов по их жанрам. Вот мой код: import numpy as np import pandas as pd r_cols = ['user_id', 'movie_id', 'rating'] ratings = pd.

Data Science

Обработка пропущенных значений в колонке с текстовыми данными

00

Вопрос или проблема Я работал над задачей с контролируемым обучением машин, где в наборе данных есть числовые (цена), категориальные (категория) и текстовые данные (описание) в качестве признаков. Признак описания имеет около 30% пропущенных значений.

Data Science

Скошенность и куртозис

00

Вопрос или проблема Следует ли вычислять асимметрию и эксцесс до или после разделения на обучающую и тестовую выборки? Есть ли какие-либо последствия от выполнения этого до/после разделения на обучающую и тестовую выборки? Если вы хотите рассчитать статистику

Data Science

Группировка строк профилей с одинаковыми словами, но в различном порядке.

00

Вопрос или проблема У меня есть датафрейм, содержащий столбец типов профилей, который выглядит следующим образом: 0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript

Data Science

Необходим обзор: Методология очистки данных для временных рядов CGM – первый реальный набор данных

00

Вопрос или проблема Я работаю над обработкой данных непрерывного мониторинга глюкозы (CGM) из XDrip+ и буду признателен за отзывы о моей методологии очистки данных. Это мой первый опыт работы с “грязными” медицинскими данными из реального

Data Science

Как найти список категориальных столбцов, которые имеют одинаковые значения?

00

Вопрос или проблема Я хотел бы сделать что-то подобное тому, что мы делаем с loc() и строками. Хотя теперь я хочу получить столбцы с одинаковыми значениями. Или применить какой-то фильтр с уникальными значениями для поиска столбцов.

Data Science

Вы используете категориальные типы данных?

00

Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать

Data Science

Как преобразовать аббревиатуры префиксов названий городов?

00

Вопрос или проблема Существует ли какой-либо стандартный инструмент, библиотека или список для расширения сокращений названий городов? Например, “MT HOLLY” -> “MOUNT HOLLY” или “ST MICHAELS”

Data Science

Недостающие данные в обучающем наборе и тестовом наборе

00

Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют