pyspark
Data Science
Вопрос или проблема Я хотел бы удалить столбцы, которые содержат только значения null, используя dropna(). В Pandas это можно сделать, установив аргумент ключевого слова axis="columns" в dropna(). Вот пример в посте на GitHub. Как это сделать в PySpark?
Вопросы и ответы
Вопрос или проблема Есть датафрейм с колонками район, тип преступления, дата, месяц. df = spark.createDataFrame( [('D1', 'ОГРОМ', '2024-02-01', 2), ('D1', 'ОГРОМ', '2024-02-01', 2), ('D1', 'НАРКОТИКИ', '2024-03-05', 3), ('D1', 'МОШЕННИЧЕСТВО', '2024-03-05'
Вопросы и ответы
Вопрос или проблема У меня сегодня задача: Имея список путей S3 в списке, разделить это и получить DataFrame с одним столбцом с путем и новым столбцом только с названием папки. Мой список содержит следующее: raw/ingest_date=20240918/eventos/ raw/ingest_date=20240918/llamadas/
Вопросы и ответы
Вопрос или проблема Я разработал отдельную функцию, которая вызывается из основной функции для обновления данных в определенной таблице. Эта функция принимает DataFrame в качестве входных данных, выполняет необходимые обновления и должна возвращать управление
Вопросы и ответы
Вопрос или проблема С помощью MS Fabric Data Factory я извлек данные журнала активности Power BI в файл json, который я загрузил в OneLake. Я пытаюсь перенести эти данные в таблицу OneLake. Вот пример данных в формате json: { "activityEventEntities"