pyspark
Вопросы и ответы
Вопрос или проблема У меня есть строка, содержащаяся в столбце pyspark dataframe с именем text (один столбец). 30,kUsUO,6,18,97,42,”SAM,K,KARAN”,lmhYK,49,aLaTA,51,34,3,49,75,39,pdwvW,54,7,63,12,25,26,SJ12u,rUFUV,34,xXBv3,XHtz4,r4Fyh,14,20,0jZL2,izrsC,44,K5Kw3,8,tcKu7,5,RPLcy,kg4IR,Kvs3p,lyG09,dJmZB,34,84,7,qED2y,8uNen,5,96,81,88,bGgqK,FAsIV,81,YXZ,PQR,”
Вопросы и ответы
Вопрос или проблема Я использую Databricks pyspark, читаю объект из s3, но это не обычный CSV. У него есть заголовки и данные посередине файла, поэтому я читаю его таким образом. df = (spark.read .format("text") .option("mode", "PERMISSIVE") .
Data Science
Вопрос или проблема Я хотел бы удалить столбцы, которые содержат только значения null, используя dropna(). В Pandas это можно сделать, установив аргумент ключевого слова axis="columns" в dropna(). Вот пример в посте на GitHub. Как это сделать в PySpark?
Вопросы и ответы
Вопрос или проблема Есть датафрейм с колонками район, тип преступления, дата, месяц. df = spark.createDataFrame( [('D1', 'ОГРОМ', '2024-02-01', 2), ('D1', 'ОГРОМ', '2024-02-01', 2), ('D1', 'НАРКОТИКИ', '2024-03-05', 3), ('D1', 'МОШЕННИЧЕСТВО', '2024-03-05'
Вопросы и ответы
Вопрос или проблема У меня сегодня задача: Имея список путей S3 в списке, разделить это и получить DataFrame с одним столбцом с путем и новым столбцом только с названием папки. Мой список содержит следующее: raw/ingest_date=20240918/eventos/ raw/ingest_date=20240918/llamadas/
Вопросы и ответы
Вопрос или проблема Я разработал отдельную функцию, которая вызывается из основной функции для обновления данных в определенной таблице. Эта функция принимает DataFrame в качестве входных данных, выполняет необходимые обновления и должна возвращать управление
Вопросы и ответы
Вопрос или проблема С помощью MS Fabric Data Factory я извлек данные журнала активности Power BI в файл json, который я загрузил в OneLake. Я пытаюсь перенести эти данные в таблицу OneLake. Вот пример данных в формате json: { "activityEventEntities"