Вопросы и ответы
Попытка открыть файл csv в Python из директории Mac [закрыто]
00
Вопрос или проблема Закрыто. Этот вопрос невоспроизводим или был вызван опечатками. В настоящее время не принимаются ответы. Этот вопрос был вызван опечаткой или проблемой, которую больше нельзя воспроизвести. Хотя аналогичные вопросы могут быть уместными
Data Science
Как создать DataFrame, который будет суммировать столбцы на основе столбца группировки?
00
Вопрос или проблема страна год пол мера значение0 ... значение12 A 2000 1 вакцинирован_в_месяце 2 ... 1 B 2000 1 вакцинирован_в_месяце 13 ... 12 A 2000 0 вакцинирован_в_месяце 4 ... 3 A 2000 9 вакцинирован_в_месяце 5 ... 4 B 2000 0 гулял_в_месяце 3 .
Вопросы и ответы
Как правильно изобразить Series Pandas с нулевыми значениями и DateTimeIndex?
00
Вопрос или проблема У меня есть серия Pandas с множеством нулевых значений и индексом DateTime. Я хочу построить график, на котором будут видны только некоторые нулевые значения и правильно обработано временное пространство. Например, серия выглядит следующим образом.
Data Science
Корреляция пропущенных значений
00
Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?
Data Science
Как применить дискретизацию энтропии к набору данных
00
Вопрос или проблема У меня есть простой набор данных, к которому я хотел бы применить дискретизацию по энтропии. Программа должна дискретизировать атрибут на основе следующих критериев: Когда истинно одно из условий “a”
Data Science
Я получил следующую ошибку: у объекта ‘DataFrame’ нет атрибута ‘data’. Можете помочь, пожалуйста?
00
Вопрос или проблема У меня есть следующая ошибка: AttributeError: 'DataFrame' object has no attribute 'feature_names' Буду признателен за вашу помощь from sklearn.tree import DecisionTreeClassifier, export_graphviz from sklearn import tree from sklearn.
Вопросы и ответы
разбить и преобразовать соединенную строку из строк в столбцы
00
Вопрос или проблема Я новичок в Python и испытываю трудности с преобразованием данных. У меня есть датафрейм с данными, как указано ниже. UserId PurchaseCnt u1 Bread:6, Milk:11 u2 Water:3 Я хочу преобразовать это в датафрейм, как показано ниже. Как мне это сделать?
Data Science
Переход от скрипта на Python для трансформации данных к BigQuery
00
Вопрос или проблема У меня есть набор данных, распределенный по нескольким постоянно растущим excel-файлам, каждый из которых выглядит так: email order_ID order_date [email protected] 1234 23-Mar-2021 [email protected] 1235 23-Mar-2021 [email protected]
Data Science
ValueError: (‘Истинное значение серии не однозначно после применения условия if/else в датафреймах Pandas
00
Вопрос или проблема Я хочу создать новую переменную для датафрейма details, названную lower, после итерации по нескольким data frames. list1 – это список строковых значений столбца с именем variable_name в details. vars_df –
Вопросы и ответы
Как отфильтровать DataFrame на основе другого DataFrame
00
Вопрос или проблема Мой датафрейм загружается из csv файла, который выглядит так RepID Account Rank 123 Abcd 1 345 Zyxw 2 567 Hijk 3 ... ... 837 Kjsj 8 и у меня есть другой csv, который имеет только один столбец RepID 345 488 Я загружаю первый csv в датафрейм
Вопросы и ответы
Удаление строк из DataFrame pandas вызывает ошибку ключа в Dataloader.
00
Вопрос или проблема Я пытаюсь загрузить некоторые данные в загрузчик данных. При попытке предварительной обработки DataFrame с помощью, например, df.dropna(), в процессе работы с DataFrame иногда возникают “keyerrors”
Вопросы и ответы
pd.to_datetime не работает с старыми датами
00
Вопрос или проблема У меня есть csv файл с очень старыми датами, и pd.to_datetime не работает. В polars это работает. Является ли это врожденным ограничением в pandas, ошибкой или чем-то еще? import pandas as pd dates = ["12/31/1672","12/31/1677","10/19/2024"] df = pd.
Data Science
Как я могу рассчитать общее количество дней просрочки между событиями выставления счетов?
00
Вопрос или проблема Я работаю с dataframe, содержащим события подписки, разделенные по именам пользователей, статусам подписки и относительным временным меткам. Для каждой из дат есть изменения во времени, когда подписка становится просроченной и продлевается
Вопросы и ответы
Непоследовательный парсинг заголовков Excel в датафрейме pandas
00
Вопрос или проблема Рассмотрите следующую таблицу в Excel: h1 h1_1 h1_2 h1_3 h2 h2_1 h2_2 h2_3 h3 h3_1 h3_2 h3_3 h4 h4_1 h4_2 h4_3 h5 h5_1 h5_2 h5_2 i1 i2 i3 h6 h6_1 h6_2 h6_2 i1_2 i1_3 foo i2_2 i2_3 foo i3_2 i3_3 foo 1 Эта таблица имеет 7 строк заголовков и 4 столбца индексов.
Data Science
Как сопоставить слово из одного столбца и сравнить с другим столбцом в DataFrame pandas
00
Вопрос или проблема У меня есть следующий датафрейм Текст Ключевые слова Тип Это тюбик с роллером роллер шарик Это бочка бочка барр Неизвестная форма другие это сборка сборка сборка это герметичная сборка сборка фабрика это роллер двойной роллер фабрика
Data Science
Как найти распределение одной переменной на основе распределения населения
00
Вопрос или проблема Я пытаюсь найти распределение возраста подмножества женатых людей в популяции. Однако я понимаю, что простая визуализация количества женатых по возрасту (Рисунок 1) сильно зависит от исходного распределения возрастов в популяции, как показано на Рисунке 2.
Data Science
Как загрузить DataFrame Pandas в таблицу Postgres в Airflow?
00
Вопрос или проблема Мне нужно создать задачу в Airflow, которая загружает данные из одной базы данных Postgres и загружает их в другую. Мой код выглядит следующим образом: def task_data_upload(): postgres_sql_download = PostgresHook(postgres_conn_id="a"
Вопросы и ответы
Ошибка dataFrame.drop() в Python PywedgeCharts
00
Вопрос или проблема Я пытался использовать Pywedge_Charts с файлом csv (простой файл csv с 3 столбцами (‘Штат’, ‘Налоги’, ‘Годовые_доходы’)), кодируя следующее: import pandas as pd import pywedge as pw tax = pd.
Data Science
Фильтрация Pandas с использованием np.where в качестве фильтра не работает так, как ожидалось.
00
Вопрос или проблема Я работал с набором данных SpaceShip Titanic от Kaggle и проводил анализ данных. Обозначим tt как pd.DataFrame, содержащий данные. Я суммировал все денежные переменные, а затем попытался отфильтровать, чтобы получить только те строки
Data Science
вычислить метрики sklearn из двумерного массива
00
Вопрос или проблема У меня есть следующий фрейм фактической ценности, [[0.1,0.2,0.3,0.4,0.5], [0.1,0.1,0.3,0.4,0.5], [0.1,0.1,0.3,0.4,0.1], [0.1,0.3,0.3,0.4,0.5], [0.1,0.2,0.2,0.4,0.4], ] И я построил свою модель, которая предсказала значение следующим образом: [[0.