pyspark - ответы на вопросы - Page 2 of 2

Вопросы и ответы

Подсчет количества запятых в датафрейме PySpark с исключением запятых, заключенных в двойные кавычки.

00

Вопрос или проблема У меня есть строка, содержащаяся в столбце pyspark dataframe с именем text (один столбец). 30,kUsUO,6,18,97,42,”SAM,K,KARAN”,lmhYK,49,aLaTA,51,34,3,49,75,39,pdwvW,54,7,63,12,25,26,SJ12u,rUFUV,34,xXBv3,XHtz4,r4Fyh,14,20,0jZL2,izrsC,44,K5Kw3,8,tcKu7,5,RPLcy,kg4IR,Kvs3p,lyG09,dJmZB,34,84,7,qED2y,8uNen,5,96,81,88,bGgqK,FAsIV,81,YXZ,PQR,”

Вопросы и ответы

Как лучше всего итерировать/парсить df.collect() в pyspark (необычный формат данных)?

00

Вопрос или проблема Я использую Databricks pyspark, читаю объект из s3, но это не обычный CSV. У него есть заголовки и данные посередине файла, поэтому я читаю его таким образом. df = (spark.read .format("text") .option("mode", "PERMISSIVE") .

Data Science

PySpark: Как указать ось dropna в преобразовании PySpark?

00

Вопрос или проблема Я хотел бы удалить столбцы, которые содержат только значения null, используя dropna(). В Pandas это можно сделать, установив аргумент ключевого слова axis="columns" в dropna(). Вот пример в посте на GitHub. Как это сделать в PySpark?

Вопросы и ответы

Группировка по столбцу и получение топ-3 самых частых значений из другого столбца в виде строки, разделённой запятыми.

00

Вопрос или проблема Есть датафрейм с колонками район, тип преступления, дата, месяц. df = spark.createDataFrame( [('D1', 'ОГРОМ', '2024-02-01', 2), ('D1', 'ОГРОМ', '2024-02-01', 2), ('D1', 'НАРКОТИКИ', '2024-03-05', 3), ('D1', 'МОШЕННИЧЕСТВО', '2024-03-05'

Вопросы и ответы

Как преобразовать список в несколько столбцов и датафрейм?

00

Вопрос или проблема У меня сегодня задача: Имея список путей S3 в списке, разделить это и получить DataFrame с одним столбцом с путем и новым столбцом только с названием папки. Мой список содержит следующее: raw/ingest_date=20240918/eventos/ raw/ingest_date=20240918/llamadas/

Вопросы и ответы

Проблема с сохранением DataFrame в PySpark после вызова функции обновления из главного потока

00

Вопрос или проблема Я разработал отдельную функцию, которая вызывается из основной функции для обновления данных в определенной таблице. Эта функция принимает DataFrame в качестве входных данных, выполняет необходимые обновления и должна возвращать управление

Вопросы и ответы

Потребуется помощь в загрузке нормализованных данных из файла JSON в DataFrame в Python

00

Вопрос или проблема С помощью MS Fabric Data Factory я извлек данные журнала активности Power BI в файл json, который я загрузил в OneLake. Я пытаюсь перенести эти данные в таблицу OneLake. Вот пример данных в формате json: { "activityEventEntities"