apache-spark - ответы на вопросы

Data Science

Сгруппировать spark dataframe от начального события до конечного события.

00

Вопрос или проблема Дан ряд событий (с датой и временем), например: failed, failed, passed, failed, passed, passed Я хочу получить время от первого “failed” до первого “passed”, сбрасывая каждый раз, когда снова происходит “

Data Science

Как построить матрицу документы-темы, используя матрицу слова-темы и матрицу темы-слова, рассчитанные с помощью латентного размещения Дирихле?

00

Вопрос или проблема Как построить матрицу «документ-тема», используя матрицы «слово-тема» и «тема-слово», рассчитанные с помощью латентного распределения Дирихле? Я нигде не могу найти информацию об этом, даже у автора LDA, М.

Data Science

Почему LinearRegressionWithSGD в Spark работает очень медленно локально?

00

Вопрос или проблема Я уже некоторое время пытаюсь запустить линейную регрессию с помощью SGD, которая находится в Spark mllib, и испытываю огромные проблемы с производительностью. Все примеры, которые я рассматривал, имеют число итераций, равное 100

Data Science

Как применить K-Medoids в PySpark?

00

Вопрос или проблема Библиотека pyspark ml не предоставляет методов кластеризации для K-Medoids. Поэтому мой вопрос: как можно применить K-Medoids в контексте pyspark? Существует кластеризация k-medoids для PySpark на spark-packages.

Data Science

СОЗДАТЬ ТАБЛИЦУ С ИСПОЛЬЗОВАНИЕМ Oracle ДАННЫЕ_ИСТОЧНИК

00

Вопрос или проблема Я пытаюсь создать таблицу, используя ORACLE в качестве источника данных с помощью spark запроса, но получаю ошибку. %sql CREATE TABLE TEST USING org.apache.spark.sql.jdbc OPTIONS ( url “jdbc:oracle:thin:@localhost.com:1560:SCOTT”

Data Science

Как запустить код Spark на Python в Jupyter Notebook через командную строку

00

Вопрос или проблема Я пытаюсь импортировать дата-фрейм в Spark, используя модуль pyspark на Python. Для этого я использовал Jupyter Notebook и выполнил код, показанный на скриншоте ниже. После этого я хочу запустить это в CMD, чтобы сохранить свои коды

Data Science

Хадуп, Спарк и Облако

00

Вопрос или проблема Похоже, Hadoop, Spark и разные версии облаков предлагают возможности для хранения и анализа больших данных. Существуют статьи, сравнивающие Hadoop и Spark (например, эта статья). Также есть статьи, которые обсуждают сервисы на AWS

Data Science

Застрял на загрузке parquet файлов рекурсивно различного размера с помощью Spark.

01

Вопрос или проблема Я использую Spark на Scala через ядро Almond для Jupyter, чтобы загрузить несколько файлов parquet различного размера. У меня есть один рабочий узел с 10 ядрами и объемом памяти 10 ГБ. Когда я выполняю следующую команду: val df = spark.

Системное администрирование и сети

Spark-исполнители не создаются на рабочих узлах Kubernetes.

00

Вопрос или проблема У меня есть кластер Kubernetes, на котором я запускаю сервер Spark Connect в режим клиента. Проблема в том, что рабочие узлы Spark не создаются на рабочем узле Kubernetes, и все они размещаются на главном узле: Я использую следующую

Data Science

Spark: Как запустить PCA параллельно? Используется только один поток.

00

Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.

Вопросы и ответы

Каков лучший способ генерировать перестановки столбцов?

00

Вопрос или проблема У меня есть scala DF, который выглядит так: +---+-----+----+----+----+ |ID |info |col1|col2|col3| +---+-----+----+----+----+ |id1|info1|a1 |a2 |a3 | |id2|info2|a1 |a3 |a4 | +---+-----+----+----+----+ Я хочу сгенерировать все перестановки

Вопросы и ответы

Объединение в таблицах Apache Iceberg с помощью временной машины

00

Вопрос или проблема Я пытаюсь применить объединение для двух таблиц iceberg, которые извлекаются через временное путешествие в pyspark. Вот код, который я пробовал: union_query = f""" SELECT * FROM {table_name} FOR SYSTEM_TIME AS OF TIMESTAMP '{initialdate}'

Вопросы и ответы

Ошибка соединения Snowflake с JAR-пакетами pyspark

00

Вопрос или проблема Я прочитал несколько тем по этому вопросу, но не нашел определенного ответа. Я запускаю контейнер локально (mac os + podman) scala: 'версия 2.12.17' pyspark: 3.4.0 spark-3.4.0 python 3.11.4 Я запускаю контейнер, который определен в

Вопросы и ответы

Spark пропускает некоторые строки при чтении parquet-файлов, сгенерированных Presto.

00

Вопрос или проблема Недавно я обнаружил, что когда Spark SQL считывает файлы Parquet, сгенерированные Presto, не все строки могут быть прочитаны. Например, для таблицы Presto в формате Parquet, содержащей 1000 строк, Spark SQL получает только 400 строк.

Системное администрирование и сети

кластер Kubernetes, взаимодействующий с узлами вне кластера

00

Вопрос или проблема Я пытаюсь перенести все разработанные приложения, в основном приложения Spark, в Kubernetes. У меня есть узел с адресом 172.22.0.80, который выполняет роль главного узла кластера Kubernetes. На другом узле в сети с адресом 172.

Системное администрирование и сети

Не удается инициализировать под и создать контейнер из-за удалённого пространства имён flannel.

00

Вопрос или проблема Я пытаюсь запустить Spark connect на Kubernetes. Пробелы имен в моем Kubernetes следующие: root@master-node:~# kubectl get namespaces NAME STATUS AGE default Active 17h kube-node-lease Active 17h kube-public Active 17h kube-system

Data Science

Хранение N-мерных матриц (тензоров) в рамках пайплайнов машинного обучения

00

Вопрос или проблема Я человек, работающий в инфраструктуре над продуктом для хранения данных. Я довольно много искал в интернете ответ на следующий вопрос, но не смог его найти. Поэтому я пытаюсь задать вопрос здесь. Я знаю, что реляционные данные или

Вопросы и ответы

Потоковая пайплайн Google Cloud Data Fusion и задания Spark с пустыми строками

00

Вопрос или проблема У меня есть потоковый конвейер Google Cloud Data Fusion, который получает данные из Google Pub/Sub. Микробатчи выполняются каждые 5 секунд. Поскольку данные не всегда поступают постоянно, я вижу множество Spark Batch с 0 записями

Системное администрирование и сети

Подключение к внешнему узлу SQL Server из Spark SQL, работающего на Kubernetes

00

Вопрос или проблема У меня есть приложение Spark SQL, которое использует JDBC-соединение для подключения к SQL-серверу и чтения таблицы из дата-фрейма. Задача просто выполнялась на локальной машине с использованием Spark Connect.

Data Science

Сравним ли признак item в Spark между несколькими запусками?

00

Вопрос или проблема Я использую spark als.train() для создания своей системы рекомендаций пользователь-товар. Проблема в том, что я хочу охватить больше признаков товара. Поэтому мне нужно вводить данные о действиях пользователей за 7 дней.