Data Science
Как я могу рассчитать общее количество дней просрочки между событиями выставления счетов?
00
Вопрос или проблема Я работаю с dataframe, содержащим события подписки, разделенные по именам пользователей, статусам подписки и относительным временным меткам. Для каждой из дат есть изменения во времени, когда подписка становится просроченной и продлевается
Вопросы и ответы
Непоследовательный парсинг заголовков Excel в датафрейме pandas
00
Вопрос или проблема Рассмотрите следующую таблицу в Excel: h1 h1_1 h1_2 h1_3 h2 h2_1 h2_2 h2_3 h3 h3_1 h3_2 h3_3 h4 h4_1 h4_2 h4_3 h5 h5_1 h5_2 h5_2 i1 i2 i3 h6 h6_1 h6_2 h6_2 i1_2 i1_3 foo i2_2 i2_3 foo i3_2 i3_3 foo 1 Эта таблица имеет 7 строк заголовков и 4 столбца индексов.
Data Science
Как сопоставить слово из одного столбца и сравнить с другим столбцом в DataFrame pandas
00
Вопрос или проблема У меня есть следующий датафрейм Текст Ключевые слова Тип Это тюбик с роллером роллер шарик Это бочка бочка барр Неизвестная форма другие это сборка сборка сборка это герметичная сборка сборка фабрика это роллер двойной роллер фабрика
Data Science
Как найти распределение одной переменной на основе распределения населения
00
Вопрос или проблема Я пытаюсь найти распределение возраста подмножества женатых людей в популяции. Однако я понимаю, что простая визуализация количества женатых по возрасту (Рисунок 1) сильно зависит от исходного распределения возрастов в популяции, как показано на Рисунке 2.
Data Science
Как загрузить DataFrame Pandas в таблицу Postgres в Airflow?
00
Вопрос или проблема Мне нужно создать задачу в Airflow, которая загружает данные из одной базы данных Postgres и загружает их в другую. Мой код выглядит следующим образом: def task_data_upload(): postgres_sql_download = PostgresHook(postgres_conn_id="a"
Вопросы и ответы
Ошибка dataFrame.drop() в Python PywedgeCharts
00
Вопрос или проблема Я пытался использовать Pywedge_Charts с файлом csv (простой файл csv с 3 столбцами (‘Штат’, ‘Налоги’, ‘Годовые_доходы’)), кодируя следующее: import pandas as pd import pywedge as pw tax = pd.
Data Science
Фильтрация Pandas с использованием np.where в качестве фильтра не работает так, как ожидалось.
00
Вопрос или проблема Я работал с набором данных SpaceShip Titanic от Kaggle и проводил анализ данных. Обозначим tt как pd.DataFrame, содержащий данные. Я суммировал все денежные переменные, а затем попытался отфильтровать, чтобы получить только те строки
Data Science
вычислить метрики sklearn из двумерного массива
00
Вопрос или проблема У меня есть следующий фрейм фактической ценности, [[0.1,0.2,0.3,0.4,0.5], [0.1,0.1,0.3,0.4,0.5], [0.1,0.1,0.3,0.4,0.1], [0.1,0.3,0.3,0.4,0.5], [0.1,0.2,0.2,0.4,0.4], ] И я построил свою модель, которая предсказала значение следующим образом: [[0.
Data Science
Данные, полученные вне Pandas DataFrame
00
Вопрос или проблема Я новичок в Python, когда я получил этот DataFrame из Yahoo Finance, столбец с датами отображается вне DataFrame. Это приводит к возникновению ошибки KeyError: ‘Date’, когда я пытаюсь выполнить эту строку кода Close_Price[‘
Вопросы и ответы
Представление пропущенных значений в агрегированном DataFrame Pandas
00
Вопрос или проблема При применении агрегирования к сгруппированному DataFrame pandas агрегированный вывод, похоже, содержит разные значения для агрегированных колонок с отсутствующими значениями, в зависимости от типа колонки DataFrame.
Вопросы и ответы
Панды: Как заменить часть значений столбца на те же значения в определенной серии? [дубликат]
00
Вопрос или проблема На этот вопрос уже есть ответы здесь: Как назначить столбцы, игнорируя выравнивание индексов (3 ответа) Назначение DataFrame в DataFrame в Pandas, не выравнивающее и производящее NaN (1 ответ) Pandas –
Data Science
Заполните пустые значения в датафрейме с условием
00
Вопрос или проблема traindf[traindf['Gender'] == 'female']['Age'].fillna(value=femage,inplace=True) Я пытался обновить нулевые значения в колонке возраста в датафрейме средними значениями. Здесь я пытался заменить нулевые значения в колонке возраста для
Data Science
Разделение датафрейма на основе содержимого строк
00
Вопрос или проблема У меня есть датафрейм с 50000 строк и 5 столбцов. В столбце VarName есть два типа данных: 1 – DatiStatistica_CombiWeight, 2 – DatiStatistica_TargetWeight Я отфильтровал строки, содержащие DatiStatistica_TargetWeight Я хотел
Data Science
Исследовательский анализ данных на наборе, разделенном на победителей и проигравших
00
Вопрос или проблема У меня есть набор данных о характеристиках победителей теннисных турниров и о характеристиках проигравших: возраст_победителя, рейтинг_победителя / возраст_проигравшего, рейтинг_проигравшего Чтобы провести надлежащий EDA, мне нужно
Data Science
Извлечение структурированных данных из полуструктурированных данных
00
Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.
Data Science
Как сравнить 4 столбца в отдельных датафреймах и оценить, совпадают ли их значения.
00
Вопрос или проблема Я хотел бы сравнить 4 столбца из 2 различных наборов данных и оценить, имеют ли они одинаковые значения статуса. Возможно ли проверить/подсчитать, сколько IDNos имеют разные статусы и сколько имеют одинаковый статус, а также какие
Data Science
Pyspark Dataframes в Pandas и ML Ops – Задержка при параллельном выполнении?
00
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Вопросы и ответы
Дорожная карта и ресурсы для живого кодирования на интервью по Python (Data Science) [закрыто]
00
Вопрос или проблема Закрыто. Этот вопрос не о программировании или разработке программного обеспечения. В настоящее время он не принимает ответов. Этот вопрос, похоже, не связан с конкретной программной проблемой, программным алгоритмом или программными
Data Science
Попытка написать код, который определяет максимальное значение перед снижением наклона.
00
Вопрос или проблема Я пытаюсь написать код для теста на силу, который выведет максимальное значение силы до того, как произойдет структурный сбой. Я немного новичок в Python, поэтому проблема может быть простой, и я что-то упускаю.
Data Science
Как подготовить данные, если каждый элемент имеет несколько категорий (например, теги)
00
Вопрос или проблема Я работаю над рекомендательной системой, которая будет рекомендовать фильмы пользователям. Оценки фильмов Фильм Пользователь Оценка 100 201 5 105 256 8 … … … Теги фильмов Фильм Тег 100 1 100 2 100 8 105 2 105 5 …