Data Science
Генерация последовательности на основе значения в другом столбце на Python
00
Вопрос или проблема У меня есть следующий датафрейм: Я хотел бы добавить колонку со значением, равным 1, если flag равен 0, и поэтапно добавлять 1 в последующих строках, пока не встретится следующий 0 (как показано в примере ниже).
Data Science
Как заменить значения NaN с помощью группировки pivot_table в DataFrame pandas?
00
Вопрос или проблема Я работаю над практической задачей по машинному обучению с https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/#ProblemStatement Я хочу заменить нулевые значения в столбце ‘
Data Science
Субсетирование датафрейма по подсетке датафрейма и по серии
00
Вопрос или проблема Я изучаю Data Science на Datacamp, и у меня возник вопрос: если у нас есть DataFrame cars, структурированный следующим образом cars_per_cap country drives_right US 809 United States True AUS 731 Australia False JPN 588 Japan False
Data Science
как реализовать VLOOKUP в Excel на Python
00
Вопрос или проблема У меня есть набор данных A и набор данных B, оба набора данных имеют общий столбец, который является идентификатором (ID). Я хочу проверить, можно ли найти значения идентификаторов A в значениях идентификаторов B.
Data Science
Питон: рассчитать взвешенный средний коэффициент корреляции
00
Вопрос или проблема Я рассчитываю волатильность (стандартное отклонение) доходности портфеля активов, используя подход с дисперсией и ковариацией. Коэффициенты корреляции и волатильности активов были оценены на основе исторической доходности.
Data Science
Какой подходящий хранилище данных для последовательных данных переменной длины для использования в PyTorch?
00
Вопрос или проблема У меня есть большое количество последовательностей – потенциально сотни тысяч – каждая из которых состоит из 100 до 10 000 элементов, которые, в свою очередь, состоят примерно из 5 вещественных чисел.
Data Science
Прогнозирование отсутствия активности клиентов
00
Вопрос или проблема Не могли бы вы помочь мне с следующим вопросом? У меня есть датафрейм с данными активности клиентов, который выглядит так: Он содержит как минимум 500.000 клиентов и “временной ряд” из 42 месяцев.
Data Science
Как удалить предыдущие строки базы данных на основе совпадающего значения в столбце?
00
Вопрос или проблема Я в настоящее время пытаюсь отсортировать фрейм данных, содержащий классы атрибутов и значения команд. Однако в моих данных есть несколько строк с разными классами и значениями одного и того же ID команды/ID атрибута.
Data Science
Объединить результаты нескольких моделей
00
Вопрос или проблема Я использую партии по 100000 строк из CSV файла для обучения простой модели LASSO. Как мне объеденить все эти модели, обученные на разных партициях? Я хотел бы использовать все эти обученные модели для предсказания.
Data Science
Нахождение уникальных признаков во всех группах в датафрейме
00
Вопрос или проблема У меня есть набор данных о сетевом взаимодействии, и кажется, что данные приходят из разных каналов. Поэтому одно и то же время метки повторяется для разных строк, что делает анализ временных рядов бессмысленным. Моя цель –
Вопросы и ответы
Использование частей для загрузки огромных файлов в Lambda
00
Вопрос или проблема Я пытаюсь загрузить большой parquet файл из S3, используя функцию Lambda в AWS. В качестве оптимизации, поскольку есть проблема с памятью в Lambda, я попробовал разбить полученные данные на части. Вот код функции : ` import awswrangler
Data Science
Как сгруппировать по одному столбцу и найти второе вхождение значений, превышающих пороговое значение
00
Вопрос или проблема Проблема У меня есть dataframe pandas, который содержит серии данных о людях, номер недели, когда произошел визит, и их систолическое и диастолическое артериальное давление. ID Weeks Systolic Diastolic 1 9 140 90 1 15 155 97 2 7 140
Data Science
Какие данные я должен сохранить в переменной “input_data”?
00
Вопрос или проблема Мне нужно передать предварительно обработанный ввод в модель TFLite для получения выводов. У меня есть Excel-файл с данными и файл модели tensorflowlite. Я получил инструкции о том, как это сделать; вот что у меня есть на данный момент
Вопросы и ответы
не соответствует ни одному известному типу
00
Вопрос или проблема Я получаю это предупреждение, когда пытаюсь вызвать метод Python. Я не импортирую numpy в своем коде. /home/oracle/python/lib/python3.12/site-packages/numpy-2.1.3-py3.12-linux-x86_64.egg/numpy/_core/getlimits.
Data Science
измерение дисперсии различий между двумя наборами соответствующих средних с учетом значимости
00
Вопрос или проблема У меня есть датафрейм id, w, x, y1, y2 (две категориальные переменные, две зависимые переменные) id – это индекс, который не является особенно информативным w, x – категориальные переменные –
Data Science
Как я могу заменить значения NaN на другие значения в столбце CustomerID, если у них одинаковый InvoiceNo?
00
Вопрос или проблема Номер счета Код товара Количество Дата счета Цена за единицу Идентификатор клиента Страна 573415 23434 20 2011-10-30 16:17:00 0.79 13607.0 Великобритания :——– :——— :—
Вопросы и ответы
ПодсчетOccurrences каждого типа события в пределах временного окна в Pandas
00
Вопрос или проблема У меня есть DataFrame со следующей структурой: event_timestamp: временная метка каждого события. event_type: тип события. Мне нужно добавить колонку для каждого уникального event_type, чтобы посчитать, сколько событий этого type произошло
Data Science
График временных рядов с использованием данных netcdf в Python
00
Вопрос или проблема Я пытаюсь построить временной ряд для 3D-графика. Я знаю, что переменную нужно сделать одномерной, чтобы она подходила для графика временного ряда. На самом деле мне нужны данные в пределах бокса с широтой и долготой.
Вопросы и ответы
извлечь первую последовательность чисел из столбца pandas
00
Вопрос или проблема Я импортировал CSV в DataFrame pandas; однако столбец, который мне нужно использовать, имеет свободный формат и находится в плохом состоянии. Мне нужно извлечь первую серию цифр после слова NBU или первую серию цифр в строке.
Data Science
Azure Cloud SQL – Запрос большого количества строк с помощью Python
00
Вопрос или проблема У меня есть приложение на Python Flask, которое подключается к базе данных Azure Cloud SQL и использует метод Pandas read_sql с SQLAlchemy для выполнения операции выбора из таблицы и загрузки данных в dataframe.