pandas
Data Science
Вопрос или проблема Здравствуйте, я пытаюсь перейти с Excel на Pandas. Я хочу добавить новый столбец под названием ‘daily_volume’, где, если ‘project_name’ равен ‘project_name’ в предыдущей строке, то рассчитать разницу.
Data Science
Вопрос или проблема У меня есть DataFrame с 4 колонками: ‘Заголовок’, ‘Body_ID’, ‘Сторона’, ‘articleBody’, где ‘Заголовок’ и ‘articleBody’ содержат очищенные и токенизированные слова.
Data Science
Вопрос или проблема У меня есть следующий датафрейм df атлетов (индексированный по Athlete_ID) и их рангу (индексированный по Rank), вот слайд датафрейма с конкретным атлетом: Rank Athlete_ID Date 13 143 25/4/2021 1 143 5/4/2021 6 143 24/2/2021 11 143
Data Science
Вопрос или проблема Когда я пытаюсь выполнить sns.heatmap(df.corr(),annot=True) этот код в своем Jupyter ноутбуке, возникает эта ошибка. Я не понимаю, в чем проблема. Пожалуйста, помогите мне. Для df.corr() вам нужно передать значения типа float/целое число вместо строки.
Data Science
Вопрос или проблема У меня есть база данных с несколькими заголовками, как так: site_no,datetime,00060_00003 11481500,2019-10-05,7.54 [...] site_no,datetime,00010_00001,00010_00002,00010_00003,00060_00003 11523000,2019-10-05,15.
Data Science
Вопрос или проблема Столбцы с временными метками хранятся внутренне в UTC, независимо от того, имеют ли они часовой пояс или нет. Об этом говорится в документации: https://pandas.pydata.org/docs/user_guide/timeseries.html#working-with-time-zones Итак
Data Science
Вопрос или проблема На этот вопрос уже есть ответы здесь: Разница между OrdinalEncoder и LabelEncoder (4 ответа) Закрыто 1 час назад. Я написал следующий код для кодирования категориальных признаков датафрейма (названного ‘
Data Science
Вопрос или проблема Я использую реальные CSV-файлы клиентов из моего интернет-магазина. Изначально я собирался использовать k-средние с 2 значениями. Я хочу, чтобы эти два значения были кодом провинции и суммой расходов в моем магазине.
Data Science
Вопрос или проблема У меня есть следующий датафрейм: Я хотел бы добавить колонку со значением, равным 1, если flag равен 0, и поэтапно добавлять 1 в последующих строках, пока не встретится следующий 0 (как показано в примере ниже).
Data Science
Вопрос или проблема Я работаю над практической задачей по машинному обучению с https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/#ProblemStatement Я хочу заменить нулевые значения в столбце ‘
Data Science
Вопрос или проблема Я изучаю Data Science на Datacamp, и у меня возник вопрос: если у нас есть DataFrame cars, структурированный следующим образом cars_per_cap country drives_right US 809 United States True AUS 731 Australia False JPN 588 Japan False
Data Science
Вопрос или проблема У меня есть набор данных A и набор данных B, оба набора данных имеют общий столбец, который является идентификатором (ID). Я хочу проверить, можно ли найти значения идентификаторов A в значениях идентификаторов B.
Data Science
Вопрос или проблема Я рассчитываю волатильность (стандартное отклонение) доходности портфеля активов, используя подход с дисперсией и ковариацией. Коэффициенты корреляции и волатильности активов были оценены на основе исторической доходности.
Data Science
Вопрос или проблема У меня есть большое количество последовательностей – потенциально сотни тысяч – каждая из которых состоит из 100 до 10 000 элементов, которые, в свою очередь, состоят примерно из 5 вещественных чисел.
Data Science
Вопрос или проблема Не могли бы вы помочь мне с следующим вопросом? У меня есть датафрейм с данными активности клиентов, который выглядит так: Он содержит как минимум 500.000 клиентов и “временной ряд” из 42 месяцев.
Data Science
Вопрос или проблема Я в настоящее время пытаюсь отсортировать фрейм данных, содержащий классы атрибутов и значения команд. Однако в моих данных есть несколько строк с разными классами и значениями одного и того же ID команды/ID атрибута.
Data Science
Вопрос или проблема Я использую партии по 100000 строк из CSV файла для обучения простой модели LASSO. Как мне объеденить все эти модели, обученные на разных партициях? Я хотел бы использовать все эти обученные модели для предсказания.
Data Science
Вопрос или проблема У меня есть набор данных о сетевом взаимодействии, и кажется, что данные приходят из разных каналов. Поэтому одно и то же время метки повторяется для разных строк, что делает анализ временных рядов бессмысленным. Моя цель –
Вопросы и ответы
Вопрос или проблема Я пытаюсь загрузить большой parquet файл из S3, используя функцию Lambda в AWS. В качестве оптимизации, поскольку есть проблема с памятью в Lambda, я попробовал разбить полученные данные на части. Вот код функции : ` import awswrangler
Data Science
Вопрос или проблема Проблема У меня есть dataframe pandas, который содержит серии данных о людях, номер недели, когда произошел визит, и их систолическое и диастолическое артериальное давление. ID Weeks Systolic Diastolic 1 9 140 90 1 15 155 97 2 7 140