apache-spark
Data Science
Вопрос или проблема Я уже некоторое время пытаюсь запустить линейную регрессию с помощью SGD, которая находится в Spark mllib, и испытываю огромные проблемы с производительностью. Все примеры, которые я рассматривал, имеют число итераций, равное 100
Data Science
Вопрос или проблема Библиотека pyspark ml не предоставляет методов кластеризации для K-Medoids. Поэтому мой вопрос: как можно применить K-Medoids в контексте pyspark? Существует кластеризация k-medoids для PySpark на spark-packages.
Data Science
Вопрос или проблема Я пытаюсь создать таблицу, используя ORACLE в качестве источника данных с помощью spark запроса, но получаю ошибку. %sql CREATE TABLE TEST USING org.apache.spark.sql.jdbc OPTIONS ( url “jdbc:oracle:thin:@localhost.com:1560:SCOTT”
Data Science
Вопрос или проблема Я пытаюсь импортировать дата-фрейм в Spark, используя модуль pyspark на Python. Для этого я использовал Jupyter Notebook и выполнил код, показанный на скриншоте ниже. После этого я хочу запустить это в CMD, чтобы сохранить свои коды
Data Science
Вопрос или проблема Похоже, Hadoop, Spark и разные версии облаков предлагают возможности для хранения и анализа больших данных. Существуют статьи, сравнивающие Hadoop и Spark (например, эта статья). Также есть статьи, которые обсуждают сервисы на AWS
Data Science
Вопрос или проблема Я использую Spark на Scala через ядро Almond для Jupyter, чтобы загрузить несколько файлов parquet различного размера. У меня есть один рабочий узел с 10 ядрами и объемом памяти 10 ГБ. Когда я выполняю следующую команду: val df = spark.
Системное администрирование и сети
Вопрос или проблема У меня есть кластер Kubernetes, на котором я запускаю сервер Spark Connect в режим клиента. Проблема в том, что рабочие узлы Spark не создаются на рабочем узле Kubernetes, и все они размещаются на главном узле: Я использую следующую
Data Science
Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.
Вопросы и ответы
Вопрос или проблема У меня есть scala DF, который выглядит так: +---+-----+----+----+----+ |ID |info |col1|col2|col3| +---+-----+----+----+----+ |id1|info1|a1 |a2 |a3 | |id2|info2|a1 |a3 |a4 | +---+-----+----+----+----+ Я хочу сгенерировать все перестановки
Вопросы и ответы
Вопрос или проблема Я пытаюсь применить объединение для двух таблиц iceberg, которые извлекаются через временное путешествие в pyspark. Вот код, который я пробовал: union_query = f""" SELECT * FROM {table_name} FOR SYSTEM_TIME AS OF TIMESTAMP '{initialdate}'
Вопросы и ответы
Вопрос или проблема Я прочитал несколько тем по этому вопросу, но не нашел определенного ответа. Я запускаю контейнер локально (mac os + podman) scala: 'версия 2.12.17' pyspark: 3.4.0 spark-3.4.0 python 3.11.4 Я запускаю контейнер, который определен в
Вопросы и ответы
Вопрос или проблема Недавно я обнаружил, что когда Spark SQL считывает файлы Parquet, сгенерированные Presto, не все строки могут быть прочитаны. Например, для таблицы Presto в формате Parquet, содержащей 1000 строк, Spark SQL получает только 400 строк.
Системное администрирование и сети
Вопрос или проблема Я пытаюсь перенести все разработанные приложения, в основном приложения Spark, в Kubernetes. У меня есть узел с адресом 172.22.0.80, который выполняет роль главного узла кластера Kubernetes. На другом узле в сети с адресом 172.
Системное администрирование и сети
Вопрос или проблема Я пытаюсь запустить Spark connect на Kubernetes. Пробелы имен в моем Kubernetes следующие: root@master-node:~# kubectl get namespaces NAME STATUS AGE default Active 17h kube-node-lease Active 17h kube-public Active 17h kube-system
Data Science
Вопрос или проблема Я человек, работающий в инфраструктуре над продуктом для хранения данных. Я довольно много искал в интернете ответ на следующий вопрос, но не смог его найти. Поэтому я пытаюсь задать вопрос здесь. Я знаю, что реляционные данные или
Вопросы и ответы
Вопрос или проблема У меня есть потоковый конвейер Google Cloud Data Fusion, который получает данные из Google Pub/Sub. Микробатчи выполняются каждые 5 секунд. Поскольку данные не всегда поступают постоянно, я вижу множество Spark Batch с 0 записями
Системное администрирование и сети
Вопрос или проблема У меня есть приложение Spark SQL, которое использует JDBC-соединение для подключения к SQL-серверу и чтения таблицы из дата-фрейма. Задача просто выполнялась на локальной машине с использованием Spark Connect.
Data Science
Вопрос или проблема Я использую spark als.train() для создания своей системы рекомендаций пользователь-товар. Проблема в том, что я хочу охватить больше признаков товара. Поэтому мне нужно вводить данные о действиях пользователей за 7 дней.
Вопросы и ответы
Вопрос или проблема Я реализовал конвейер в AWS, где мои данные хранятся в бакете с именем “input-bucket”. В этом бакете есть файл, содержащий различные ZIP-архивы. Я написал задачу Glue для распаковки этих данных, преобразования их в формат
Data Science
Вопрос или проблема У меня есть случай использования для вычисления центральности промежуточных узлов. Я пробовал graphx с spark-betweenness, но это очень долгое выполнение задачи. Кто-нибудь успешно вычислял центральность промежуточных узлов в большой