pyspark
Data Science
Вопрос или проблема Библиотека pyspark ml не предоставляет методов кластеризации для K-Medoids. Поэтому мой вопрос: как можно применить K-Medoids в контексте pyspark? Существует кластеризация k-medoids для PySpark на spark-packages.
Data Science
Вопрос или проблема Я пытаюсь создать таблицу, используя ORACLE в качестве источника данных с помощью spark запроса, но получаю ошибку. %sql CREATE TABLE TEST USING org.apache.spark.sql.jdbc OPTIONS ( url “jdbc:oracle:thin:@localhost.com:1560:SCOTT”
Data Science
Вопрос или проблема Я пытаюсь запустить H2O в Databricks. Однако, когда я делаю следующее: hc = pysparkling.H2OContext.getOrCreate(spark) Я получаю следующую ошибку: java.lang.AbstractMethodError Кто-нибудь знает, в чем может быть проблема?
Data Science
Вопрос или проблема Я пытаюсь импортировать дата-фрейм в Spark, используя модуль pyspark на Python. Для этого я использовал Jupyter Notebook и выполнил код, показанный на скриншоте ниже. После этого я хочу запустить это в CMD, чтобы сохранить свои коды
Data Science
Вопрос или проблема В настоящее время я работаю над предварительной обработкой больших наборов данных для целей машинного обучения. У меня возникли трудности с кодированием строк в числа. У меня есть набор данных с несколькими транзакциями блокчейна
Data Science
Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.
Data Science
Вопрос или проблема Я пытаюсь создать рекомендательную систему, которая предсказывает цены на отели на основе большого количества признаков. У меня есть колонка, представляющая рейтинг отеля из 5, и другая колонка, указывающая количество отзывов на этот отель.
Вопросы и ответы
Вопрос или проблема Я пытаюсь применить объединение для двух таблиц iceberg, которые извлекаются через временное путешествие в pyspark. Вот код, который я пробовал: union_query = f""" SELECT * FROM {table_name} FOR SYSTEM_TIME AS OF TIMESTAMP '{initialdate}'
Вопросы и ответы
Вопрос или проблема Я прочитал несколько тем по этому вопросу, но не нашел определенного ответа. Я запускаю контейнер локально (mac os + podman) scala: 'версия 2.12.17' pyspark: 3.4.0 spark-3.4.0 python 3.11.4 Я запускаю контейнер, который определен в
Вопросы и ответы
Вопрос или проблема Я использую Iceberg с PostgreSQL в качестве каталога, MinIO в качестве хранилища данных и Spark для взаимодействия с Iceberg. Мое приложение может принимать нескольких пользователей, работающих с одной и той же таблицей одновременно, используя Spark SQL.
Вопросы и ответы
Вопрос или проблема Я запускаю скрипты pyspark около года с использованием дистрибутива Anaconda и Spyder 5.5.4. У меня ушло время, чтобы заставить pyspark работать, поэтому я оставил свою окружение pyspark таким, какое оно было.
Data Science
Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.
Вопросы и ответы
Вопрос или проблема Я пытаюсь выполнить внутреннее соединение между двумя стриминговыми датафреймами, где на одном из датафреймов была выполнена агрегация. Результирующий датафрейм всегда оказывается пустым. Тестирование с статическими версиями одних
Вопросы и ответы
Вопрос или проблема Условие задачи: У нас есть задача в Databricks, состоящая из нескольких параллельно работающих задач. Каждая задача записывает Spark dataframe в таблицу Azure SQL Database. Каждая задача записывает в свою целевую таблицу.
Вопросы и ответы
Вопрос или проблема У меня есть столбец в таблице со строками переменной длины: |value | |-------------| |abcdefgh | |1234567891011| Мне нужно разбить строки на массивы строк, где каждая строка длиной 2 (за исключением последней строки в случае нечетного числа символов).
Вопросы и ответы
Вопрос или проблема Я пытаюсь запустить задачу pyspark в кластере EMR. Код для этой задачи находится в сжатом пакете, который размещен в S3: /bin/spark-submit \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline.zip \ pipeline.
Data Science
Вопрос или проблема Я пытаюсь провести сегментацию клиентов на основе своих транзакционных данных и у меня возникают некоторые трудности с выбором наилучшего подхода. Поскольку это несупервизированная модель, я могу использовать любой алгоритм и получить
Data Science
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Вопросы и ответы
Вопрос или проблема У меня есть строка, содержащаяся в столбце pyspark dataframe с именем text (один столбец). 30,kUsUO,6,18,97,42,”SAM,K,KARAN”,lmhYK,49,aLaTA,51,34,3,49,75,39,pdwvW,54,7,63,12,25,26,SJ12u,rUFUV,34,xXBv3,XHtz4,r4Fyh,14,20,0jZL2,izrsC,44,K5Kw3,8,tcKu7,5,RPLcy,kg4IR,Kvs3p,lyG09,dJmZB,34,84,7,qED2y,8uNen,5,96,81,88,bGgqK,FAsIV,81,YXZ,PQR,”
Вопросы и ответы
Вопрос или проблема Я использую Databricks pyspark, читаю объект из s3, но это не обычный CSV. У него есть заголовки и данные посередине файла, поэтому я читаю его таким образом. df = (spark.read .format("text") .option("mode", "PERMISSIVE") .