pandas - ответы на вопросы - Page 3 of 8

Data Science

Ошибка с dataframe pandas (должен быть одномерным)

00

Вопрос или проблема Я пытаюсь определить конформные предсказания для моей модели с использованием моих данных. Но появляется следующая ошибка, которая возникает при вызове icp.calibrate(X_cal, y_cal): Исключение: Данные должны быть одномерными Ниже вы

Data Science

Ошибка XGB DataFrame.dtypes

00

Вопрос или проблема Вот код для назначения переменных X = pd.DataFrame(np.c_[df['day'], df['spend'], df['platform'],df['month'],df['year']], columns=[['day', 'spend','platform','month','year']]) y = pd.DataFrame(np.c_[df['revenue']], columns=['revenue'])

Data Science

Объединение двух наборов данных с различными признаками для предсказания в машинном обучении.

00

Вопрос или проблема Я пытаюсь создать модель, которая предсказывает цены на недвижимость с помощью xgboost в машинном обучении, мой вопрос: могу ли я объединить два набора данных для этого? Первый набор данных: 13 характеристик Второй набор данных: 100

Data Science

построить несколько графиков строк из датафрейма

00

Вопрос или проблема Я пытаюсь прочитать и построить несколько файлов, которые выглядят следующим образом, когда я открываю их с помощью Python, используя pandas read.table. Столбцы для построения – это “dev” против метки времени.

Data Science

Вы используете категориальные типы данных?

00

Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать

Data Science

Как добавить полосы ошибок к линейному графику Matplotlib?

00

Вопрос или проблема У меня есть следующий набор данных, который я использую для построения линейного графика. График получается как среднее значений, полученных из данных. Я хочу добавить ошибочные полосы к этому графику, которые будут показывать стандартное отклонение.

Data Science

Чтение значений из столбца в переменную и последующее коррелирование с использованием Python

00

Вопрос или проблема Я хочу иметь возможность коррелировать значения из различных идентификаторов, где даты совпадают. Данные выглядят примерно так; ID Время(сек) Дата AAAA 1 01/01/1990 AAAA 6 02/01/1990 AAAA 5 03/01/1990 AAAA 2 04/01/1990 AAAA 4 05/01/1990

Data Science

Построить датафрейм с несколькими CSV

00

Вопрос или проблема Я собираю метрики по 6 REST-сервисам из архитектуры микросервисов. Для каждого собранного момента я извлекаю два CSV-файла из каждого сервиса. Один CSV содержит три метрики задержки (99-й процентиль, 50-й процентиль, среднее значение).

Data Science

Пространственно ограниченная геопространственная схожесть

00

Вопрос или проблема Какова текущая методология кластеризации геопространственных данных по признакам? Пример: у меня есть демографический набор данных. Допустим, он содержит среднюю цену на жилье и плотность населения. Таким образом, пример корреляции

Data Science

Панды: Расчет лучшего продавца с учетом количества проданных домов

00

Вопрос или проблема Я анализировал данные продавцов и пытался получить инсайты. Я написал оператор groupby, чтобы получить среднюю цену продажи для каждого продавца. for seller,seller_df in g: df=df.append({'Seller':seller,'AveragePrice':seller_df.

Data Science

Как правильно вычислить коэффициент корреляции значения столбца из таблицы в Python 3?

00

Вопрос или проблема У меня есть таблица данных о ежедневных значениях за последние 2 года, которая выглядит следующим образом, и мне нужно рассчитать корреляции между данными в Python. У меня нет опыта в области науки о данных, поэтому я боюсь, что мои

Data Science

Как рассчитать разницу на основе совпадающих критериев

00

Вопрос или проблема Здравствуйте, я пытаюсь перейти с Excel на Pandas. Я хочу добавить новый столбец под названием ‘daily_volume’, где, если ‘project_name’ равен ‘project_name’ в предыдущей строке, то рассчитать разницу.

Data Science

найти биграмы в pandas

00

Вопрос или проблема У меня есть DataFrame с 4 колонками: ‘Заголовок’, ‘Body_ID’, ‘Сторона’, ‘articleBody’, где ‘Заголовок’ и ‘articleBody’ содержат очищенные и токенизированные слова.

Data Science

Кумулятивная сумма с начальным значением, отличным от 0, в Pandas

00

Вопрос или проблема У меня есть следующий датафрейм df атлетов (индексированный по Athlete_ID) и их рангу (индексированный по Rank), вот слайд датафрейма с конкретным атлетом: Rank Athlete_ID Date 13 143 25/4/2021 1 143 5/4/2021 6 143 24/2/2021 11 143

Data Science

corr() выдает ошибку. Пожалуйста, помогите разобраться с этой проблемой и скажите, в чем заключается эта ошибка.

00

Вопрос или проблема Когда я пытаюсь выполнить sns.heatmap(df.corr(),annot=True) этот код в своем Jupyter ноутбуке, возникает эта ошибка. Я не понимаю, в чем проблема. Пожалуйста, помогите мне. Для df.corr() вам нужно передать значения типа float/целое число вместо строки.

Data Science

Как мне загрузить базу данных с несколькими неконсистентными заголовками?

00

Вопрос или проблема У меня есть база данных с несколькими заголовками, как так: site_no,datetime,00060_00003 11481500,2019-10-05,7.54 [...] site_no,datetime,00010_00001,00010_00002,00010_00003,00060_00003 11523000,2019-10-05,15.

Data Science

Как Pandas хранит информацию о часовом поясе?

00

Вопрос или проблема Столбцы с временными метками хранятся внутренне в UTC, независимо от того, имеют ли они часовой пояс или нет. Об этом говорится в документации: https://pandas.pydata.org/docs/user_guide/timeseries.html#working-with-time-zones Итак

Data Science

Не удается закодировать несколько категориальных столбцов одновременно [дубликат]

00

Вопрос или проблема На этот вопрос уже есть ответы здесь: Разница между OrdinalEncoder и LabelEncoder (4 ответа) Закрыто 1 час назад. Я написал следующий код для кодирования категориальных признаков датафрейма (названного ‘

Data Science

Какой алгоритм машинного обучения мне использовать для построения графика и прогнозирования местоположения клиента по сравнению с затраченными средствами?

00

Вопрос или проблема Я использую реальные CSV-файлы клиентов из моего интернет-магазина. Изначально я собирался использовать k-средние с 2 значениями. Я хочу, чтобы эти два значения были кодом провинции и суммой расходов в моем магазине.

Data Science

Генерация последовательности на основе значения в другом столбце на Python

00

Вопрос или проблема У меня есть следующий датафрейм: Я хотел бы добавить колонку со значением, равным 1, если flag равен 0, и поэтапно добавлять 1 в последующих строках, пока не встретится следующий 0 (как показано в примере ниже).