pandas
Data Science
Вопрос или проблема Я работаю с этим CSV файлом, который представляет собой сборник детализации фильмов из IMDB. В нем есть жанры столбец в датафрейме со всеми жанрами фильмов, разделенными символом “|” Мне нужно извлечь первые два жанра из
Data Science
Вопрос или проблема Я использую книгу и видео, чтобы научиться использовать метод KNN для классификации фильмов по их жанрам. Вот мой код: import numpy as np import pandas as pd r_cols = ['user_id', 'movie_id', 'rating'] ratings = pd.
Data Science
Вопрос или проблема Язык: Python 3.8 У меня есть dataframe, который состоит из серии людей (каждый из которых появляется несколько раз в dataframe), дат и бинарных переменных. Я пытаюсь выяснить, сколько людей после конкретного события (отмеченного одной
Убунту
Вопрос или проблема Я пытаюсь запустить программу BoltzTraP2, установленную на Ubuntu 20.04.1 LTS, но получаю эту ошибку. Пожалуйста, дайте мне знать, как я могу это решить. Я установил pandas и liblzma-dev, но ошибка все равно появляется.
Data Science
Вопрос или проблема У меня есть DataFrame pandas. Индекс, ‘Date’, является датой и представляет собой непрерывные ежедневные данные. У меня есть две другие колонки с датами, ‘startDate’ и ‘endDate’
Data Science
Вопрос или проблема У меня есть простая программа для выполнения PCA-анализа на наборе данных. Цель состоит в том, чтобы умножить набор данных на вектор признаков в конце программы. import pandas as pd import numpy as np from numpy import linalg as LA def main(): s = pd.
Data Science
Вопрос или проблема При загрузке данных с помощью read_sas из набора данных SAS в Python, каждая строка получает b' в начале. Как это исправить? Попробуйте использовать encoding=utf-8 Код: import pandas as pd mydf=pd.read_sas("\home\mypath\mydataset.
Data Science
Вопрос или проблема Я новичок в Python/Pandas, и у меня возникают некоторые трудности. У меня есть DataFrame с данными о качестве воздуха с 2016 по 2020 год. Я хочу рассчитать годовой темп изменения для каждого измеряемого значения, чтобы сравнить их
Data Science
Вопрос или проблема У меня есть датафрейм, настроенный следующим образом: глубина val1 val2 1 0.5 0.6 2 0.4 0.7 3 0.3 0.8 И я хочу получить его в следующем формате: глубина y категория 1 0.5 val1 1 0.6 val2 2 0.4 val1 2 0.7 val2 3 0.
Data Science
Вопрос или проблема Я пытаюсь определить конформные предсказания для моей модели с использованием моих данных. Но появляется следующая ошибка, которая возникает при вызове icp.calibrate(X_cal, y_cal): Исключение: Данные должны быть одномерными Ниже вы
Data Science
Вопрос или проблема Вот код для назначения переменных X = pd.DataFrame(np.c_[df['day'], df['spend'], df['platform'],df['month'],df['year']], columns=[['day', 'spend','platform','month','year']]) y = pd.DataFrame(np.c_[df['revenue']], columns=['revenue'])
Data Science
Вопрос или проблема Я пытаюсь создать модель, которая предсказывает цены на недвижимость с помощью xgboost в машинном обучении, мой вопрос: могу ли я объединить два набора данных для этого? Первый набор данных: 13 характеристик Второй набор данных: 100
Data Science
Вопрос или проблема Я пытаюсь прочитать и построить несколько файлов, которые выглядят следующим образом, когда я открываю их с помощью Python, используя pandas read.table. Столбцы для построения – это “dev” против метки времени.
Data Science
Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать
Data Science
Вопрос или проблема У меня есть следующий набор данных, который я использую для построения линейного графика. График получается как среднее значений, полученных из данных. Я хочу добавить ошибочные полосы к этому графику, которые будут показывать стандартное отклонение.
Data Science
Вопрос или проблема Я хочу иметь возможность коррелировать значения из различных идентификаторов, где даты совпадают. Данные выглядят примерно так; ID Время(сек) Дата AAAA 1 01/01/1990 AAAA 6 02/01/1990 AAAA 5 03/01/1990 AAAA 2 04/01/1990 AAAA 4 05/01/1990
Data Science
Вопрос или проблема Я собираю метрики по 6 REST-сервисам из архитектуры микросервисов. Для каждого собранного момента я извлекаю два CSV-файла из каждого сервиса. Один CSV содержит три метрики задержки (99-й процентиль, 50-й процентиль, среднее значение).
Data Science
Вопрос или проблема Какова текущая методология кластеризации геопространственных данных по признакам? Пример: у меня есть демографический набор данных. Допустим, он содержит среднюю цену на жилье и плотность населения. Таким образом, пример корреляции
Data Science
Вопрос или проблема Я анализировал данные продавцов и пытался получить инсайты. Я написал оператор groupby, чтобы получить среднюю цену продажи для каждого продавца. for seller,seller_df in g: df=df.append({'Seller':seller,'AveragePrice':seller_df.
Data Science
Вопрос или проблема У меня есть таблица данных о ежедневных значениях за последние 2 года, которая выглядит следующим образом, и мне нужно рассчитать корреляции между данными в Python. У меня нет опыта в области науки о данных, поэтому я боюсь, что мои