dataframe
Вопросы и ответы
Вопрос или проблема Я использую Databricks pyspark, читаю объект из s3, но это не обычный CSV. У него есть заголовки и данные посередине файла, поэтому я читаю его таким образом. df = (spark.read .format("text") .option("mode", "PERMISSIVE") .
Вопросы и ответы
Вопрос или проблема Я использую этот DataFrame: Фрукты Дата Имя Количество Яблоки 10/6/2016 Боб 7 Яблоки 10/6/2016 Боб 8 Яблоки 10/6/2016 Майк 9 Яблоки 10/7/2016 Стив 10 Яблоки 10/7/2016 Боб 1 Апельсины 10/7/2016 Боб 2 Апельсины 10/6/2016 Том 15 Апельсины
Вопросы и ответы
Вопрос или проблема Я работаю с файлом JSON, который выглядит следующим образом: f = {'results': [{'tables': [{'rows': [{'column1': 'собака', 'column2': 'синий', 'column3': 'грустный'}, { 'column2': 'красный', 'column3': 'счастливый'}, {'column1': 'птица'
Вопросы и ответы
Вопрос или проблема Поиск оставшихся строк в датафреймах pandas Если я определяю Y в определенных столбцах, используя это: thing1 = df[df['column1'] == 'Y'] thing2 = df[df['column2'] == 'Y'] thing3 = df[df['column3'] == 'Y'] thing4 = df[df['column4']
Вопросы и ответы
Вопрос или проблема Преобразовать список строк времени в уникальный формат строки У меня есть список строк времени с разными форматами, как показано ниже time = ["1:5 am", "1:35 am", "8:1 am", "9:14 am", "14:23 pm", "20:2 pm"] dict = {'time': time} df = pd.
Вопросы и ответы
Вопрос или проблема У меня есть два датафрейма, которые я хотел бы сравнить, и мне нужно знать, существуют ли объекты, хранящиеся в df1, также в df2. Однако объекты в df2 длиннее из-за множества дополнительных данных. В качестве примера, мой df1: вставьте
Вопросы и ответы
Вопрос или проблема Я пытаюсь загрузить данные из таблицы базы данных Oracle в DataFrame pandas в строковом формате, где моя таблица имеет много полей NUMBER с данными без десятичных знаков. например, tableA (col1 varchar2(30), col2 number, col3 varchar2(12)…
Вопросы и ответы
Вопрос или проблема У меня есть этот дата-фрейм: Server 1-Jun 6-Jun 1-jul Jul-10 ServerA 8 9 5 90 ServerB 100 10 9 90 Мне нужно создать еще один столбец под названием maximumval и выбрать максимальное значение за все месяцы для каждого сервера: Получившийся
Вопросы и ответы
Вопрос или проблема У этого вопроса уже есть ответы здесь: Как разбить столбец с числами с плавающей запятой на группы с помощью pandas (2 ответа) Какова цель оператора return? Чем он отличается от вывода на экран? (15 ответов) Закрыто 15 минут назад.
Вопросы и ответы
Вопрос или проблема У меня сегодня задача: Имея список путей S3 в списке, разделить это и получить DataFrame с одним столбцом с путем и новым столбцом только с названием папки. Мой список содержит следующее: raw/ingest_date=20240918/eventos/ raw/ingest_date=20240918/llamadas/
Вопросы и ответы
Вопрос или проблема У меня есть функция, которую я упрощаю ниже, но которую я использую для создания нового столбца в существующем датафрейме. В настоящее время я использую iterrows, но я пытался использовать .apply, фильтруя по уникальным группам Года
Вопросы и ответы
Вопрос или проблема С помощью MS Fabric Data Factory я извлек данные журнала активности Power BI в файл json, который я загрузил в OneLake. Я пытаюсь перенести эти данные в таблицу OneLake. Вот пример данных в формате json: { "activityEventEntities"