apache-spark
Вопросы и ответы
Вопрос или проблема У меня есть scala DF, который выглядит так: +---+-----+----+----+----+ |ID |info |col1|col2|col3| +---+-----+----+----+----+ |id1|info1|a1 |a2 |a3 | |id2|info2|a1 |a3 |a4 | +---+-----+----+----+----+ Я хочу сгенерировать все перестановки
Вопросы и ответы
Вопрос или проблема Я пытаюсь применить объединение для двух таблиц iceberg, которые извлекаются через временное путешествие в pyspark. Вот код, который я пробовал: union_query = f""" SELECT * FROM {table_name} FOR SYSTEM_TIME AS OF TIMESTAMP '{initialdate}'
Вопросы и ответы
Вопрос или проблема Я прочитал несколько тем по этому вопросу, но не нашел определенного ответа. Я запускаю контейнер локально (mac os + podman) scala: 'версия 2.12.17' pyspark: 3.4.0 spark-3.4.0 python 3.11.4 Я запускаю контейнер, который определен в
Вопросы и ответы
Вопрос или проблема Недавно я обнаружил, что когда Spark SQL считывает файлы Parquet, сгенерированные Presto, не все строки могут быть прочитаны. Например, для таблицы Presto в формате Parquet, содержащей 1000 строк, Spark SQL получает только 400 строк.
Системное администрирование и сети
Вопрос или проблема Я пытаюсь перенести все разработанные приложения, в основном приложения Spark, в Kubernetes. У меня есть узел с адресом 172.22.0.80, который выполняет роль главного узла кластера Kubernetes. На другом узле в сети с адресом 172.
Системное администрирование и сети
Вопрос или проблема Я пытаюсь запустить Spark connect на Kubernetes. Пробелы имен в моем Kubernetes следующие: root@master-node:~# kubectl get namespaces NAME STATUS AGE default Active 17h kube-node-lease Active 17h kube-public Active 17h kube-system
Data Science
Вопрос или проблема Я человек, работающий в инфраструктуре над продуктом для хранения данных. Я довольно много искал в интернете ответ на следующий вопрос, но не смог его найти. Поэтому я пытаюсь задать вопрос здесь. Я знаю, что реляционные данные или
Вопросы и ответы
Вопрос или проблема У меня есть потоковый конвейер Google Cloud Data Fusion, который получает данные из Google Pub/Sub. Микробатчи выполняются каждые 5 секунд. Поскольку данные не всегда поступают постоянно, я вижу множество Spark Batch с 0 записями
Системное администрирование и сети
Вопрос или проблема У меня есть приложение Spark SQL, которое использует JDBC-соединение для подключения к SQL-серверу и чтения таблицы из дата-фрейма. Задача просто выполнялась на локальной машине с использованием Spark Connect.
Data Science
Вопрос или проблема Я использую spark als.train() для создания своей системы рекомендаций пользователь-товар. Проблема в том, что я хочу охватить больше признаков товара. Поэтому мне нужно вводить данные о действиях пользователей за 7 дней.
Вопросы и ответы
Вопрос или проблема Я реализовал конвейер в AWS, где мои данные хранятся в бакете с именем “input-bucket”. В этом бакете есть файл, содержащий различные ZIP-архивы. Я написал задачу Glue для распаковки этих данных, преобразования их в формат
Data Science
Вопрос или проблема У меня есть случай использования для вычисления центральности промежуточных узлов. Я пробовал graphx с spark-betweenness, но это очень долгое выполнение задачи. Кто-нибудь успешно вычислял центральность промежуточных узлов в большой
Data Science
Вопрос или проблема Мы пытаемся создать рекомендательную систему для супермаркета с разнообразными типами товаров (от быстроразворачиваемых продуктов до медленноразворачивающихся электронных товаров). Некоторые товары покупаются чаще и в больших объемах
Вопросы и ответы
Вопрос или проблема Я пытаюсь запустить задачу pyspark в кластере EMR. Код для этой задачи находится в сжатом пакете, который размещен в S3: /bin/spark-submit \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline.zip \ pipeline.
Data Science
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Вопросы и ответы
Вопрос или проблема Мы все знаем, что .gz не может быть разбит, это значит, что его может читать только одно ядро. Это означает, что когда я помещаю огромный файл .gz в HDFS, он должен фактически находиться в виде одного блока.
Вопросы и ответы
Предоставляет ли Spark XGBoost способ освободить базовую память, выделенную модулями XGBoost на C++?
Вопрос или проблема Мы используем Spark для обучения или дообучения моделей с помощью Spark. По некоторым причинам мы хотим выгрузить модель из Spark и выполнить некоторые другие задачи после завершения обучения. Мы не уверены, как освободить всю память
Вопросы и ответы
Вопрос или проблема У меня сегодня задача: Имея список путей S3 в списке, разделить это и получить DataFrame с одним столбцом с путем и новым столбцом только с названием папки. Мой список содержит следующее: raw/ingest_date=20240918/eventos/ raw/ingest_date=20240918/llamadas/
Вопросы и ответы
Вопрос или проблема Я разработал отдельную функцию, которая вызывается из основной функции для обновления данных в определенной таблице. Эта функция принимает DataFrame в качестве входных данных, выполняет необходимые обновления и должна возвращать управление