Вопросы и ответы
Куртоз: мезокуртическое (нормальное) распределение, асимметрия: распределение с правой или левой асимметрией. Возможно ли это для набора данных/переменной?
00
Вопрос или проблема Пример 1: Куртоз: лептокуртическое распределение Скошенность: распределение с правым скошением Пример 2: Куртоз: лептокуртическое распределение Скошенность: распределение с левым скошением Пример 3: Куртоз: платикуртическое распределение
Вопросы и ответы
разбить и преобразовать соединенную строку из строк в столбцы
00
Вопрос или проблема Я новичок в Python и испытываю трудности с преобразованием данных. У меня есть датафрейм с данными, как указано ниже. UserId PurchaseCnt u1 Bread:6, Milk:11 u2 Water:3 Я хочу преобразовать это в датафрейм, как показано ниже. Как мне это сделать?
Вопросы и ответы
Кластеризация на основе текстовых описаний
00
Вопрос или проблема Я работаю на сайте онлайн-хостинга электронной коммерции, и недавно мне поручили маркировку базы данных, содержащей более 10 миллионов записей услуг, предлагаемых компаниями. Каждая запись имеет множество данных, но наиболее важными
Data Science
ValueError: (‘Истинное значение серии не однозначно после применения условия if/else в датафреймах Pandas
00
Вопрос или проблема Я хочу создать новую переменную для датафрейма details, названную lower, после итерации по нескольким data frames. list1 – это список строковых значений столбца с именем variable_name в details. vars_df –
Вопросы и ответы
Изменяет ли конструкция датафрейма значения списка?
00
Вопрос или проблема Если я напишу это: f <- function(lambda, a_0, n) { a <- numeric(n) a[1] <- a_0 for (i in 2:n) { a[i] <- lambda * a[i-1] * (1 - a[i-1]) } return(a) } f(4, 0.75, 100) то создается список, который содержит только число 0.
Вопросы и ответы
Удаление строк из DataFrame pandas вызывает ошибку ключа в Dataloader.
00
Вопрос или проблема Я пытаюсь загрузить некоторые данные в загрузчик данных. При попытке предварительной обработки DataFrame с помощью, например, df.dropna(), в процессе работы с DataFrame иногда возникают “keyerrors”
Data Science
Ядро завершается или процесс зависает при выполнении предсказания LR на датафрейме с использованием apply.
00
Вопрос или проблема Я пытаюсь сделать предсказания с помощью простой модели. model=LogisticRegression() model.fit(X_train,y_train) После подгонки я пытаюсь сделать предсказания. Пример значения X_test и код ниже. X_train[41626] array([-0.
Data Science
Как сопоставить слово из одного столбца и сравнить с другим столбцом в DataFrame pandas
00
Вопрос или проблема У меня есть следующий датафрейм Текст Ключевые слова Тип Это тюбик с роллером роллер шарик Это бочка бочка барр Неизвестная форма другие это сборка сборка сборка это герметичная сборка сборка фабрика это роллер двойной роллер фабрика
Data Science
Как загрузить DataFrame Pandas в таблицу Postgres в Airflow?
00
Вопрос или проблема Мне нужно создать задачу в Airflow, которая загружает данные из одной базы данных Postgres и загружает их в другую. Мой код выглядит следующим образом: def task_data_upload(): postgres_sql_download = PostgresHook(postgres_conn_id="a"
Data Science
Данные, полученные вне Pandas DataFrame
00
Вопрос или проблема Я новичок в Python, когда я получил этот DataFrame из Yahoo Finance, столбец с датами отображается вне DataFrame. Это приводит к возникновению ошибки KeyError: ‘Date’, когда я пытаюсь выполнить эту строку кода Close_Price[‘
Вопросы и ответы
Как преобразовать DataFrame в широкий формат с заданными парами столбцов
00
Вопрос или проблема У меня есть следующий расплавленный образец датафрейма: df_melted <- data.frame(ID = c(21, 21, 21, 21, 49, 49, 49, 49), instance = c(1, 1, 1, 1, 1, 1, 2, 2), variable = c("causeofdeath", "deathdate", "dob", "gender", "causeofdeath"
Data Science
Существует ли способ сделать окно в df.rolling динамическим в зависимости от строки, для которой выполняется расчет?
00
Вопрос или проблема У меня есть набор данных о ценах акций, и я хочу добавить столбец с минимальными значениями за 52 недели для каждого дня. Однако для строк, в которых нет 365 дней выше, я просто хочу, чтобы в этом столбце было скользящее минимальное
Data Science
Разделение датафрейма на основе содержимого строк
00
Вопрос или проблема У меня есть датафрейм с 50000 строк и 5 столбцов. В столбце VarName есть два типа данных: 1 – DatiStatistica_CombiWeight, 2 – DatiStatistica_TargetWeight Я отфильтровал строки, содержащие DatiStatistica_TargetWeight Я хотел
Вопросы и ответы
Проверьте, есть ли хотя бы одно значение True в DataFrame Polars.
00
Вопрос или проблема Это довольно простая задача, но я не могу найти ясного простого решения, кажется, что я что-то упускаю. Допустим, у меня есть DataFrame следующего типа df = pl.from_repr(""" ┌───────┬───────┬───────┐ │ a ┆ b ┆ c │ │ --- ┆ --- ┆ ---
Data Science
Как сравнить 4 столбца в отдельных датафреймах и оценить, совпадают ли их значения.
00
Вопрос или проблема Я хотел бы сравнить 4 столбца из 2 различных наборов данных и оценить, имеют ли они одинаковые значения статуса. Возможно ли проверить/подсчитать, сколько IDNos имеют разные статусы и сколько имеют одинаковый статус, а также какие
Вопросы и ответы
Формат маски Dataframe Python для очистки свободного формата данных до и после специального символа ‘-‘
00
Вопрос или проблема Я экспортирую таблицу из базы данных в pandas dataframe и пытаюсь применить маску формата для очистки некоторого текста свободного формата, содержащегося в одном из столбцов. Я хочу создать новый столбец в dataframe, чтобы извлечь
Вопросы и ответы
Сохранение результатов функции в датафрейме, которая возвращает количество, и ggplot
00
Вопрос или проблема Я написал функцию, которая возвращает мне список, содержащий число (odchylka.sr) и объект ggplot (ggpl) model.ARIMA.RF.fct <- function (l.obs.pomin) { ... wynik.lst <- list (odchylka.sr, ggpl) return(wynik.
Data Science
Python: Как построить график временного интервала из DataFrame в Pandas
00
Вопрос или проблема У меня есть датафрейм (df), который содержит данные о выполнении задания в разные временные интервалы. Он включает в себя следующие детали о выполнении задания: Время начала задания (START) Время окончания задания (END) Временной интервал (interval), т.
Вопросы и ответы
Подсчет количества запятых в датафрейме PySpark с исключением запятых, заключенных в двойные кавычки.
00
Вопрос или проблема У меня есть строка, содержащаяся в столбце pyspark dataframe с именем text (один столбец). 30,kUsUO,6,18,97,42,”SAM,K,KARAN”,lmhYK,49,aLaTA,51,34,3,49,75,39,pdwvW,54,7,63,12,25,26,SJ12u,rUFUV,34,xXBv3,XHtz4,r4Fyh,14,20,0jZL2,izrsC,44,K5Kw3,8,tcKu7,5,RPLcy,kg4IR,Kvs3p,lyG09,dJmZB,34,84,7,qED2y,8uNen,5,96,81,88,bGgqK,FAsIV,81,YXZ,PQR,”
Вопросы и ответы
Скорректированная цена закрытия от yfinance не совпадает с общим ответом от Yahoo Finance.
00
Вопрос или проблема Я пытаюсь рассчитать месячную и годовую доходность в процентах для фонда, подобного VSMPX. Я понимаю, что скорректированная цена закрытия из yfinance учитывает дробления и дивиденды. Чтобы получить процентную доходность, я делаю следующее