pyspark
Data Science
Вопрос или проблема Я пытаюсь создать рекомендательную систему, которая предсказывает цены на отели на основе большого количества признаков. У меня есть колонка, представляющая рейтинг отеля из 5, и другая колонка, указывающая количество отзывов на этот отель.
Вопросы и ответы
Вопрос или проблема Я пытаюсь применить объединение для двух таблиц iceberg, которые извлекаются через временное путешествие в pyspark. Вот код, который я пробовал: union_query = f""" SELECT * FROM {table_name} FOR SYSTEM_TIME AS OF TIMESTAMP '{initialdate}'
Вопросы и ответы
Вопрос или проблема Я прочитал несколько тем по этому вопросу, но не нашел определенного ответа. Я запускаю контейнер локально (mac os + podman) scala: 'версия 2.12.17' pyspark: 3.4.0 spark-3.4.0 python 3.11.4 Я запускаю контейнер, который определен в
Вопросы и ответы
Вопрос или проблема Я использую Iceberg с PostgreSQL в качестве каталога, MinIO в качестве хранилища данных и Spark для взаимодействия с Iceberg. Мое приложение может принимать нескольких пользователей, работающих с одной и той же таблицей одновременно, используя Spark SQL.
Вопросы и ответы
Вопрос или проблема Я запускаю скрипты pyspark около года с использованием дистрибутива Anaconda и Spyder 5.5.4. У меня ушло время, чтобы заставить pyspark работать, поэтому я оставил свою окружение pyspark таким, какое оно было.
Data Science
Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.
Вопросы и ответы
Вопрос или проблема Я пытаюсь выполнить внутреннее соединение между двумя стриминговыми датафреймами, где на одном из датафреймов была выполнена агрегация. Результирующий датафрейм всегда оказывается пустым. Тестирование с статическими версиями одних
Вопросы и ответы
Вопрос или проблема Условие задачи: У нас есть задача в Databricks, состоящая из нескольких параллельно работающих задач. Каждая задача записывает Spark dataframe в таблицу Azure SQL Database. Каждая задача записывает в свою целевую таблицу.
Вопросы и ответы
Вопрос или проблема У меня есть столбец в таблице со строками переменной длины: |value | |-------------| |abcdefgh | |1234567891011| Мне нужно разбить строки на массивы строк, где каждая строка длиной 2 (за исключением последней строки в случае нечетного числа символов).
Вопросы и ответы
Вопрос или проблема Я пытаюсь запустить задачу pyspark в кластере EMR. Код для этой задачи находится в сжатом пакете, который размещен в S3: /bin/spark-submit \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline.zip \ pipeline.
Data Science
Вопрос или проблема Я пытаюсь провести сегментацию клиентов на основе своих транзакционных данных и у меня возникают некоторые трудности с выбором наилучшего подхода. Поскольку это несупервизированная модель, я могу использовать любой алгоритм и получить
Data Science
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Вопросы и ответы
Вопрос или проблема У меня есть строка, содержащаяся в столбце pyspark dataframe с именем text (один столбец). 30,kUsUO,6,18,97,42,”SAM,K,KARAN”,lmhYK,49,aLaTA,51,34,3,49,75,39,pdwvW,54,7,63,12,25,26,SJ12u,rUFUV,34,xXBv3,XHtz4,r4Fyh,14,20,0jZL2,izrsC,44,K5Kw3,8,tcKu7,5,RPLcy,kg4IR,Kvs3p,lyG09,dJmZB,34,84,7,qED2y,8uNen,5,96,81,88,bGgqK,FAsIV,81,YXZ,PQR,”
Вопросы и ответы
Вопрос или проблема Я использую Databricks pyspark, читаю объект из s3, но это не обычный CSV. У него есть заголовки и данные посередине файла, поэтому я читаю его таким образом. df = (spark.read .format("text") .option("mode", "PERMISSIVE") .
Data Science
Вопрос или проблема Я хотел бы удалить столбцы, которые содержат только значения null, используя dropna(). В Pandas это можно сделать, установив аргумент ключевого слова axis="columns" в dropna(). Вот пример в посте на GitHub. Как это сделать в PySpark?
Вопросы и ответы
Вопрос или проблема Есть датафрейм с колонками район, тип преступления, дата, месяц. df = spark.createDataFrame( [('D1', 'ОГРОМ', '2024-02-01', 2), ('D1', 'ОГРОМ', '2024-02-01', 2), ('D1', 'НАРКОТИКИ', '2024-03-05', 3), ('D1', 'МОШЕННИЧЕСТВО', '2024-03-05'
Вопросы и ответы
Вопрос или проблема У меня сегодня задача: Имея список путей S3 в списке, разделить это и получить DataFrame с одним столбцом с путем и новым столбцом только с названием папки. Мой список содержит следующее: raw/ingest_date=20240918/eventos/ raw/ingest_date=20240918/llamadas/
Вопросы и ответы
Вопрос или проблема Я разработал отдельную функцию, которая вызывается из основной функции для обновления данных в определенной таблице. Эта функция принимает DataFrame в качестве входных данных, выполняет необходимые обновления и должна возвращать управление
Вопросы и ответы
Вопрос или проблема С помощью MS Fabric Data Factory я извлек данные журнала активности Power BI в файл json, который я загрузил в OneLake. Я пытаюсь перенести эти данные в таблицу OneLake. Вот пример данных в формате json: { "activityEventEntities"