Data Science
Как отсортировать многоуровневый DataFrame в pandas по определённому столбцу?
00
Вопрос или проблема Я хотел бы отсортировать многоиндексный DataFrame pandas по столбцу, но не хочу, чтобы весь DataFrame сортировался сразу. Я предпочел бы отсортировать по одному из индексов. Вот пример того, что я имею в виду: Ниже приведен пример
Data Science
Как запустить код Spark на Python в Jupyter Notebook через командную строку
00
Вопрос или проблема Я пытаюсь импортировать дата-фрейм в Spark, используя модуль pyspark на Python. Для этого я использовал Jupyter Notebook и выполнил код, показанный на скриншоте ниже. После этого я хочу запустить это в CMD, чтобы сохранить свои коды
Data Science
Где начинаются и заканчиваются разные трубопроводы?
00
Вопрос или проблема Существует множество “проводок”, которые существуют в современном мире Data Science: данные (“подъем и перенос”, курирование, согласование?) вывод моделирование машинное обучение (в отличие от 2 и 3?
Data Science
Может ли таблица фактов иметь отношение 1:1 с таблицей измерений?
00
Вопрос или проблема Я пытаюсь создать небольшую таблицу фактов в области здравоохранения с следующей информацией [patientid], [organid], [value] Каждый [patientid] уникален для этого пациента, но в системе доступно только 10 [organid] (сердце, левое легкое
Data Science
Как заменить значения NaN с помощью группировки pivot_table в DataFrame pandas?
00
Вопрос или проблема Я работаю над практической задачей по машинному обучению с https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/#ProblemStatement Я хочу заменить нулевые значения в столбце ‘
Data Science
Какие шаблоны проектирования в программной инженерии наиболее часто применяются при создании пайплайнов и других рабочих процессов в области данных, науки о данных и машинного обучения?
00
Вопрос или проблема В программной инженерии шаблон проектирования — это общее, многократно используемое решение для общей проблемы в проектировании программного обеспечения. Это не законченный кусок кода, а скорее шаблон или лучшая практика, которую можно
Data Science
Переход от скрипта на Python для трансформации данных к BigQuery
00
Вопрос или проблема У меня есть набор данных, распределенный по нескольким постоянно растущим excel-файлам, каждый из которых выглядит так: email order_ID order_date [email protected] 1234 23-Mar-2021 [email protected] 1235 23-Mar-2021 [email protected]
Data Science
Как загрузить DataFrame Pandas в таблицу Postgres в Airflow?
00
Вопрос или проблема Мне нужно создать задачу в Airflow, которая загружает данные из одной базы данных Postgres и загружает их в другую. Мой код выглядит следующим образом: def task_data_upload(): postgres_sql_download = PostgresHook(postgres_conn_id="a"
Data Science
Как обрабатывать столбец значений типа int, разделенных запятыми, как строку в наборе данных для обучения модели?
00
Вопрос или проблема Я работаю над проектом машинного обучения для прогнозирования победителя матчей по кабадди с использованием набора данных. Одной из важных характеристик является состав команды. У меня есть столбец в DataFrame, который содержит идентификаторы
Data Science
Как создать этот конвейер данных?
00
Вопрос или проблема У меня не так много опыта в области инженерии данных, поэтому я здесь, чтобы попросить совета. Я работаю над проектом, который заключается в создании панели управления для ИТ-отдела банка. Панель должна представлять информацию из логов.
Вопросы и ответы
Как использовать Pandera для проверки наличия подстрок из одного столбца в другом?
00
Вопрос или проблема У меня есть схема DataFrameSchema, подобная этой: Schema = DataFrameSchema( columns={ 'Complete_Name': Column(name="Complete_Name", dtype="string", nullable=True), 'Surname': Column(name="Surname", dtype="string", nullable=True), }