pandas - ответы на вопросы - Page 2 of 8

Data Science

Как упорядочить значения в разных столбцах в правильном порядке на основе другого фрейма данных (сопоставления) в Python Pandas

00

Вопрос или проблема Я довольно новичок в Python и Pandas и испытываю трудности с объединением неупорядоченного датафрейма из Excel с картой. Я пытался найти решения в Интернете, но безуспешно. Мой первый df_1 выглядит следующим образом: Название продукта

Data Science

Как сравнить и найти общие значения из разных столбцов в одном датафрейме?

00

Data Science

Эффективно изменить большой csv-файл в Pandas

00

Вопрос или проблема У меня есть CSV-файл, и я хотел бы внести в него следующие изменения: df = pandas.read_csv('some_file.csv') df.index = df.index.map(lambda x: x[:-1]) df.to_csv('some_file.csv') Это убирает последний символ в индексах и сохраняет файл заново.

Data Science

Обновление столбца в pandas DataFrame с использованием функций Apply, Lambda и Group by

00

Вопрос или проблема У меня есть датафрейм в формате, указанном на скриншоте ниже. Столбец ‘Candidate Won‘ имеет значение ‘loss‘ для всех строк. Я хочу обновить столбец ‘Candidate Won’ до значения ‘

Data Science

Рассчитать прогнозируемое значение на основе коэффициента и константы на Python.

00

Вопрос или проблема У меня есть коэффициенты и константа (альфа). Я хочу перемножить и сложить значения, как в этом примере. (это нужно сделать для 300000 строк) Прогноз = константа + (значениеСтроки1 * кол1) + (-значениеСтроки1 * кол2) + (-значениеСтроки1

Data Science

Почему люди предпочитают Pandas, а не SQL?

00

Вопрос или проблема Я использую SQL с 1996 года, так что я могу быть предвзятым. Я активно использовал MySQL и SQLite 3, но также использовал Microsoft SQL Server и Oracle. Подавляющее большинство операций, которые я видел с Pandas, можно сделать легче с помощью SQL.

Data Science

sklearn текстовый анализ – обработка пропущенных значений

00

Вопрос или проблема Я работаю над проектом мульти-классовой текстовой классификации. Моя цель проста: с учетом “баг”, я хочу предсказать, к какому конечному владельцу группы он будет отнесен. Мне удалось собрать ~15000 образцов багов с релевантным статусом (т.

Data Science

Разделение данных на признаки/метки и обучение/тестирование после чтения из csv файла.

00

Вопрос или проблема Мне нужно прочитать данные из файла CSV, а затем разделить эти данные на признаки и метки, а затем на обучающую и тестовую выборку. Однако возникает несколько проблем снова и снова. Ниже приведен код, который я пытался использовать

Data Science

Сравнение объекта датафрейма со строковым значением в Django

00

Вопрос или проблема Я реализую модель машинного обучения и использую обучающую выборку из таблицы MySQL, и все это построено на Django. В основном все вычисления выполняются путем преобразования всех данных из таблицы MySQL в датафрейм.

Data Science

Как удалить объект с плавающей запятой в датафрейме? Например: “зима 2021” на “зима”

00

Вопрос или проблема У меня есть столбец, в котором я хочу удалить год и оставить только сезон. Пример: “зима 2021” станет “зима”. Попробуйте df['Column'] = df['Column'].str.replace('\d+', '') это удалит все цифры в столбце Попробуйте

Data Science

Найдите и посчитайте похожие цены в каждом магазине и выведите максимальное количество и соответствующие строки.

00

Вопрос или проблема Моя цель: для каждого товара в каждом магазине найти количество товаров в том же магазине с разницей в цене в $2 (т.е. количество товаров с похожей ценой в том же магазине). Затем перечислить все товары, у которых наибольшее количество товаров.

Data Science

Извлечь разделенные значения из столбцов

00

Вопрос или проблема Я работаю с этим CSV файлом, который представляет собой сборник детализации фильмов из IMDB. В нем есть жанры столбец в датафрейме со всеми жанрами фильмов, разделенными символом “|” Мне нужно извлечь первые два жанра из

Data Science

Понимание этого сообщения об ошибке

00

Вопрос или проблема Я использую книгу и видео, чтобы научиться использовать метод KNN для классификации фильмов по их жанрам. Вот мой код: import numpy as np import pandas as pd r_cols = ['user_id', 'movie_id', 'rating'] ratings = pd.

Data Science

Как сгруппировать по идентификаторам и подсчитать количество групп с появлением переменной после первой точки?

00

Вопрос или проблема Язык: Python 3.8 У меня есть dataframe, который состоит из серии людей (каждый из которых появляется несколько раз в dataframe), дат и бинарных переменных. Я пытаюсь выяснить, сколько людей после конкретного события (отмеченного одной

Убунту

Как я могу решить проблему “нет модуля с именем ‘_lzma'”?

02

Вопрос или проблема Я пытаюсь запустить программу BoltzTraP2, установленную на Ubuntu 20.04.1 LTS, но получаю эту ошибку. Пожалуйста, дайте мне знать, как я могу это решить. Я установил pandas и liblzma-dev, но ошибка все равно появляется.

Data Science

Найти максимальное и минимальное значение в столбцах диапазона дат.

00

Вопрос или проблема У меня есть DataFrame pandas. Индекс, ‘Date’, является датой и представляет собой непрерывные ежедневные данные. У меня есть две другие колонки с датами, ‘startDate’ и ‘endDate’

Data Science

Как умножить DataFrame pandas на массив numpy

00

Вопрос или проблема У меня есть простая программа для выполнения PCA-анализа на наборе данных. Цель состоит в том, чтобы умножить набор данных на вектор признаков в конце программы. import pandas as pd import numpy as np from numpy import linalg as LA def main(): s = pd.

Data Science

Получение лишних символов при загрузке данных

00

Вопрос или проблема При загрузке данных с помощью read_sas из набора данных SAS в Python, каждая строка получает b' в начале. Как это исправить? Попробуйте использовать encoding=utf-8 Код: import pandas as pd mydf=pd.read_sas("\home\mypath\mydataset.

Data Science

Как добавить вычисляемый столбец в DataFrame Pandas?

01

Вопрос или проблема Я новичок в Python/Pandas, и у меня возникают некоторые трудности. У меня есть DataFrame с данными о качестве воздуха с 2016 по 2020 год. Я хочу рассчитать годовой темп изменения для каждого измеряемого значения, чтобы сравнить их

Data Science

Преобразование датафрейма pandas из нескольких серий в категориальную метку

00

Вопрос или проблема У меня есть датафрейм, настроенный следующим образом: глубина val1 val2 1 0.5 0.6 2 0.4 0.7 3 0.3 0.8 И я хочу получить его в следующем формате: глубина y категория 1 0.5 val1 1 0.6 val2 2 0.4 val1 2 0.7 val2 3 0.