pandas
Data Science
Вопрос или проблема Я пытаюсь определить конформные предсказания для моей модели с использованием моих данных. Но появляется следующая ошибка, которая возникает при вызове icp.calibrate(X_cal, y_cal): Исключение: Данные должны быть одномерными Ниже вы
Data Science
Вопрос или проблема Вот код для назначения переменных X = pd.DataFrame(np.c_[df['day'], df['spend'], df['platform'],df['month'],df['year']], columns=[['day', 'spend','platform','month','year']]) y = pd.DataFrame(np.c_[df['revenue']], columns=['revenue'])
Data Science
Вопрос или проблема Я пытаюсь создать модель, которая предсказывает цены на недвижимость с помощью xgboost в машинном обучении, мой вопрос: могу ли я объединить два набора данных для этого? Первый набор данных: 13 характеристик Второй набор данных: 100
Data Science
Вопрос или проблема Я пытаюсь прочитать и построить несколько файлов, которые выглядят следующим образом, когда я открываю их с помощью Python, используя pandas read.table. Столбцы для построения – это “dev” против метки времени.
Data Science
Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать
Data Science
Вопрос или проблема У меня есть следующий набор данных, который я использую для построения линейного графика. График получается как среднее значений, полученных из данных. Я хочу добавить ошибочные полосы к этому графику, которые будут показывать стандартное отклонение.
Data Science
Вопрос или проблема Я хочу иметь возможность коррелировать значения из различных идентификаторов, где даты совпадают. Данные выглядят примерно так; ID Время(сек) Дата AAAA 1 01/01/1990 AAAA 6 02/01/1990 AAAA 5 03/01/1990 AAAA 2 04/01/1990 AAAA 4 05/01/1990
Data Science
Вопрос или проблема Я собираю метрики по 6 REST-сервисам из архитектуры микросервисов. Для каждого собранного момента я извлекаю два CSV-файла из каждого сервиса. Один CSV содержит три метрики задержки (99-й процентиль, 50-й процентиль, среднее значение).
Data Science
Вопрос или проблема Какова текущая методология кластеризации геопространственных данных по признакам? Пример: у меня есть демографический набор данных. Допустим, он содержит среднюю цену на жилье и плотность населения. Таким образом, пример корреляции
Data Science
Вопрос или проблема Я анализировал данные продавцов и пытался получить инсайты. Я написал оператор groupby, чтобы получить среднюю цену продажи для каждого продавца. for seller,seller_df in g: df=df.append({'Seller':seller,'AveragePrice':seller_df.
Data Science
Вопрос или проблема У меня есть таблица данных о ежедневных значениях за последние 2 года, которая выглядит следующим образом, и мне нужно рассчитать корреляции между данными в Python. У меня нет опыта в области науки о данных, поэтому я боюсь, что мои
Data Science
Вопрос или проблема Здравствуйте, я пытаюсь перейти с Excel на Pandas. Я хочу добавить новый столбец под названием ‘daily_volume’, где, если ‘project_name’ равен ‘project_name’ в предыдущей строке, то рассчитать разницу.
Data Science
Вопрос или проблема У меня есть DataFrame с 4 колонками: ‘Заголовок’, ‘Body_ID’, ‘Сторона’, ‘articleBody’, где ‘Заголовок’ и ‘articleBody’ содержат очищенные и токенизированные слова.
Data Science
Вопрос или проблема У меня есть следующий датафрейм df атлетов (индексированный по Athlete_ID) и их рангу (индексированный по Rank), вот слайд датафрейма с конкретным атлетом: Rank Athlete_ID Date 13 143 25/4/2021 1 143 5/4/2021 6 143 24/2/2021 11 143
Data Science
Вопрос или проблема Когда я пытаюсь выполнить sns.heatmap(df.corr(),annot=True) этот код в своем Jupyter ноутбуке, возникает эта ошибка. Я не понимаю, в чем проблема. Пожалуйста, помогите мне. Для df.corr() вам нужно передать значения типа float/целое число вместо строки.
Data Science
Вопрос или проблема У меня есть база данных с несколькими заголовками, как так: site_no,datetime,00060_00003 11481500,2019-10-05,7.54 [...] site_no,datetime,00010_00001,00010_00002,00010_00003,00060_00003 11523000,2019-10-05,15.
Data Science
Вопрос или проблема Столбцы с временными метками хранятся внутренне в UTC, независимо от того, имеют ли они часовой пояс или нет. Об этом говорится в документации: https://pandas.pydata.org/docs/user_guide/timeseries.html#working-with-time-zones Итак
Data Science
Вопрос или проблема На этот вопрос уже есть ответы здесь: Разница между OrdinalEncoder и LabelEncoder (4 ответа) Закрыто 1 час назад. Я написал следующий код для кодирования категориальных признаков датафрейма (названного ‘
Data Science
Вопрос или проблема Я использую реальные CSV-файлы клиентов из моего интернет-магазина. Изначально я собирался использовать k-средние с 2 значениями. Я хочу, чтобы эти два значения были кодом провинции и суммой расходов в моем магазине.
Data Science
Вопрос или проблема У меня есть следующий датафрейм: Я хотел бы добавить колонку со значением, равным 1, если flag равен 0, и поэтапно добавлять 1 в последующих строках, пока не встретится следующий 0 (как показано в примере ниже).