pyspark - ответы на вопросы

Data Science

Использование стандартизации и нормализации в одном пайплайне.

00

Вопрос или проблема У меня есть конвейер ML в pyspark, который использует сокращение размерности PCA и нейронную сеть. Насколько я понимаю, PCA работает лучше всего, когда ему дают стандартизированные значения, а нейронная сеть — когда нормализованные.

Data Science

Сгруппировать spark dataframe от начального события до конечного события.

00

Вопрос или проблема Дан ряд событий (с датой и временем), например: failed, failed, passed, failed, passed, passed Я хочу получить время от первого “failed” до первого “passed”, сбрасывая каждый раз, когда снова происходит “

Data Science

Как применить K-Medoids в PySpark?

00

Вопрос или проблема Библиотека pyspark ml не предоставляет методов кластеризации для K-Medoids. Поэтому мой вопрос: как можно применить K-Medoids в контексте pyspark? Существует кластеризация k-medoids для PySpark на spark-packages.

Data Science

СОЗДАТЬ ТАБЛИЦУ С ИСПОЛЬЗОВАНИЕМ Oracle ДАННЫЕ_ИСТОЧНИК

00

Вопрос или проблема Я пытаюсь создать таблицу, используя ORACLE в качестве источника данных с помощью spark запроса, но получаю ошибку. %sql CREATE TABLE TEST USING org.apache.spark.sql.jdbc OPTIONS ( url “jdbc:oracle:thin:@localhost.com:1560:SCOTT”

Data Science

Запуск H2O в Databricks

00

Вопрос или проблема Я пытаюсь запустить H2O в Databricks. Однако, когда я делаю следующее: hc = pysparkling.H2OContext.getOrCreate(spark) Я получаю следующую ошибку: java.lang.AbstractMethodError Кто-нибудь знает, в чем может быть проблема?

Data Science

Как запустить код Spark на Python в Jupyter Notebook через командную строку

00

Вопрос или проблема Я пытаюсь импортировать дата-фрейм в Spark, используя модуль pyspark на Python. Для этого я использовал Jupyter Notebook и выполнил код, показанный на скриншоте ниже. После этого я хочу запустить это в CMD, чтобы сохранить свои коды

Data Science

Строка в число в случае наличия миллионов уникальных значений

00

Вопрос или проблема В настоящее время я работаю над предварительной обработкой больших наборов данных для целей машинного обучения. У меня возникли трудности с кодированием строк в числа. У меня есть набор данных с несколькими транзакциями блокчейна

Data Science

Spark: Как запустить PCA параллельно? Используется только один поток.

00

Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.

Data Science

00

Вопрос или проблема Я пытаюсь создать рекомендательную систему, которая предсказывает цены на отели на основе большого количества признаков. У меня есть колонка, представляющая рейтинг отеля из 5, и другая колонка, указывающая количество отзывов на этот отель.

Вопросы и ответы

Объединение в таблицах Apache Iceberg с помощью временной машины

00

Вопрос или проблема Я пытаюсь применить объединение для двух таблиц iceberg, которые извлекаются через временное путешествие в pyspark. Вот код, который я пробовал: union_query = f""" SELECT * FROM {table_name} FOR SYSTEM_TIME AS OF TIMESTAMP '{initialdate}'

Вопросы и ответы

Ошибка соединения Snowflake с JAR-пакетами pyspark

00

Вопрос или проблема Я прочитал несколько тем по этому вопросу, но не нашел определенного ответа. Я запускаю контейнер локально (mac os + podman) scala: 'версия 2.12.17' pyspark: 3.4.0 spark-3.4.0 python 3.11.4 Я запускаю контейнер, который определен в

Вопросы и ответы

Информация о пользовательском ID в снимке таблицы Iceberg

00

Вопрос или проблема Я использую Iceberg с PostgreSQL в качестве каталога, MinIO в качестве хранилища данных и Spark для взаимодействия с Iceberg. Мое приложение может принимать нескольких пользователей, работающих с одной и той же таблицей одновременно, используя Spark SQL.

Вопросы и ответы

Фатальная ошибка Windows: нарушение доступа с os.environ[‘PYTHONPATH’] после обновления Spyder IDE

00

Вопрос или проблема Я запускаю скрипты pyspark около года с использованием дистрибутива Anaconda и Spyder 5.5.4. У меня ушло время, чтобы заставить pyspark работать, поэтому я оставил свою окружение pyspark таким, какое оно было.

Data Science

Реализация K-модов в pyspark

00

Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.

Вопросы и ответы

Как выполнить внутреннее соединение потоков Spark с агрегированием?

00

Вопрос или проблема Я пытаюсь выполнить внутреннее соединение между двумя стриминговыми датафреймами, где на одном из датафреймов была выполнена агрегация. Результирующий датафрейм всегда оказывается пустым. Тестирование с статическими версиями одних

Вопросы и ответы

Обработка дублирующихся записей при записи датафреймов Spark в базу данных Azure SQL Server с использованием Databricks

00

Вопрос или проблема Условие задачи: У нас есть задача в Databricks, состоящая из нескольких параллельно работающих задач. Каждая задача записывает Spark dataframe в таблицу Azure SQL Database. Каждая задача записывает в свою целевую таблицу.

Вопросы и ответы

Как разделить строку на массив строк одинаковой длины в чистом SQL на Databricks

00

Вопрос или проблема У меня есть столбец в таблице со строками переменной длины: |value | |-------------| |abcdefgh | |1234567891011| Мне нужно разбить строки на массивы строк, где каждая строка длиной 2 (за исключением последней строки в случае нечетного числа символов).

Вопросы и ответы

spark-submit с использованием опции –py-files не может найти путь к модулям

00

Вопрос или проблема Я пытаюсь запустить задачу pyspark в кластере EMR. Код для этой задачи находится в сжатом пакете, который размещен в S3: /bin/spark-submit \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline.zip \ pipeline.

Data Science

Сегментация клиентов с несбалансированными данными

00

Вопрос или проблема Я пытаюсь провести сегментацию клиентов на основе своих транзакционных данных и у меня возникают некоторые трудности с выбором наилучшего подхода. Поскольку это несупервизированная модель, я могу использовать любой алгоритм и получить

Data Science

Pyspark Dataframes в Pandas и ML Ops – Задержка при параллельном выполнении?

00

Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции