dataframe - ответы на вопросы - Page 2 of 4

Data Science

00

Вопрос или проблема Я собираю метрики по 6 REST-сервисам из архитектуры микросервисов. Для каждого собранного момента я извлекаю два CSV-файла из каждого сервиса. Один CSV содержит три метрики задержки (99-й процентиль, 50-й процентиль, среднее значение).

Data Science

Кумулятивная сумма с начальным значением, отличным от 0, в Pandas

00

Вопрос или проблема У меня есть следующий датафрейм df атлетов (индексированный по Athlete_ID) и их рангу (индексированный по Rank), вот слайд датафрейма с конкретным атлетом: Rank Athlete_ID Date 13 143 25/4/2021 1 143 5/4/2021 6 143 24/2/2021 11 143

Data Science

Постройте три серии на одном графике, группируя данные по дням и месяцам.

00

Вопрос или проблема У меня есть набор данных, содержащий данные за три года, которые я хотел бы отобразить и сравнить по дате и месяцу; но я испытываю трудности с конечным результатом. Я почти на месте, но по какой-то странной причине, когда я строю график

Data Science

Вычислите среднее/дисперсию сумм случайно выбранных чисел из массива.

00

Вопрос или проблема Давайте скажем, что есть массив, содержащий числа с плавающей запятой, и его размер n. Теперь m чисел будут выбраны из этого массива, и сумма этих m чисел будет генерировать новое число. Таким образом, все возможные комбинации суммы

Data Science

Субсетирование датафрейма по подсетке датафрейма и по серии

00

Вопрос или проблема Я изучаю Data Science на Datacamp, и у меня возник вопрос: если у нас есть DataFrame cars, структурированный следующим образом cars_per_cap country drives_right US 809 United States True AUS 731 Australia False JPN 588 Japan False

Data Science

как реализовать VLOOKUP в Excel на Python

00

Вопрос или проблема У меня есть набор данных A и набор данных B, оба набора данных имеют общий столбец, который является идентификатором (ID). Я хочу проверить, можно ли найти значения идентификаторов A в значениях идентификаторов B.

Data Science

Как сгруппировать метки (в задаче многометочной классификации), которые в основном появляются вместе в классе

00

Вопрос или проблема Как сгруппировать метки (в задаче многоклассовой классификации), которые чаще всего встречаются вместе в датафрейме? Например, у меня есть следующий датафрейм: text | жанр =========================== текст 1 | [экшн, детектив, ужас

Data Science

Прогнозирование отсутствия активности клиентов

01

Вопрос или проблема Не могли бы вы помочь мне с следующим вопросом? У меня есть датафрейм с данными активности клиентов, который выглядит так: Он содержит как минимум 500.000 клиентов и “временной ряд” из 42 месяцев.

Вопросы и ответы

Преобразование текстового файла с веб-сайта в таблицу

00

Вопрос или проблема Я пытаюсь преобразовать файл htm, содержащий текстовые таблицы, в датафрейм. Я посмотрел на предыдущие вопросы здесь и здесь, но не решил свою проблему. Таблица получается испорченной. Следующий воспроизводимый пример. # URL сайта url <

Вопросы и ответы

В R с использованием ggplot2 как использовать “dodge” по одному переменному и “stack” с использованием отдельного переменного.

00

Вопрос или проблема Я пытаюсь создать столбчатую диаграмму, показывающую согласие с определенной темой в зависимости от политической принадлежности людей. Я хочу, чтобы каждую переменную политической принадлежности представляли два столбца: один для процента

Вопросы и ответы

Есть ли способ преобразовать ниже приведенные вложенные списки в датафрейм в R?

00

Вопрос или проблема Существует ли способ преобразовать приведенные ниже вложенные списки в датафрейм в R? Списки ниже имеют неравные размеры, поэтому я хотел бы узнать, можем ли мы преобразовать это в датафрейм. Если значение отсутствует, оно должно быть заменено на NA.

Вопросы и ответы

извлечь первую последовательность чисел из столбца pandas

00

Вопрос или проблема Я импортировал CSV в DataFrame pandas; однако столбец, который мне нужно использовать, имеет свободный формат и находится в плохом состоянии. Мне нужно извлечь первую серию цифр после слова NBU или первую серию цифр в строке.

Data Science

Заменить пропущенные значения на наиболее частое число при условии

00

Вопрос или проблема Я пытаюсь заменить недостающие значения в столбце “Age”, но с учетом других столбцов в этих данных Titanic – Машинное обучение на основе катастрофы df.Age[(df['Sex'] == 0) & (df['Pclass'] == 1)] Я пытался сделать

Вопросы и ответы

Разделите столбец списков Pandas на несколько столбцов

00

Вопрос или проблема У меня есть DataFrame Pandas с одним столбцом: import pandas as pd df = pd.DataFrame({"teams": [["SF", "NYG"] for _ in range(7)]}) teams 0 [SF, NYG] 1 [SF, NYG] 2 [SF, NYG] 3 [SF, NYG] 4 [SF, NYG] 5 [SF, NYG] 6 [SF, NYG] Как можно

Вопросы и ответы

Как выполнить join_asof в Polars, рассматривая только назад и соответствуя определенным условиям?

00

Вопрос или проблема Я пытаюсь выполнить join_asof в Polars, который будет смотреть только назад во времени, игнорируя совпадения в одной строке. В частности, я хочу, чтобы он находил последнюю строку, где Team и Field совпадают точно, но только если значение

Data Science

Память RAM崩溃 для функции преобразования XML в DataFrame

00

Вопрос или проблема Я создал следующую функцию, которая преобразует XML файл в DataFrame. Эта функция хорошо работает для файлов размером менее 1 ГБ, для всего, что больше этого, память (13 ГБ в Google Colab) выдает ошибку. То же самое происходит, если

Data Science

Хранение N-мерных матриц (тензоров) в рамках пайплайнов машинного обучения

00

Вопрос или проблема Я человек, работающий в инфраструктуре над продуктом для хранения данных. Я довольно много искал в интернете ответ на следующий вопрос, но не смог его найти. Поэтому я пытаюсь задать вопрос здесь. Я знаю, что реляционные данные или

Вопросы и ответы

Datacamp: Образец практического экзамена для инженера по данным (HappyPaws)

00

Вопрос или проблема В настоящее время я работаю над задачей очистки данных, где мне нужно объединить три набора данных, связанные с активностью домашних животных, медицинскими записями и информацией о владельцах. Цель состоит в том, чтобы создать единственный

Вопросы и ответы

Непоследовательное использование памяти Pandas для встроенного numpy

00

Вопрос или проблема Может кто-то помочь объяснить, почему здесь разница в результатах? В частности, использование памяти, выведенное после сериализации/десериализации, резко отличается. Единственное, что я заметил, это то, что df["data"][0].flags выводит ‘

Data Science

Ищите предыдущую дату в датафрейме, у которой есть определенная категория столбца в R.

00

Вопрос или проблема У меня есть следующий дата-фрейм: Date.POSIXct Date WeekDay DayCategory Hour Holidays value 1 2018-05-01 00:00:00 2018-05-01 MA MA-MI-JU 0 0 30 2 2018-05-01 01:00:00 2018-05-01 MA MA-MI-JU 1 0 80 3 2018-05-01 02:00:00 2018-05-01 MA