apache-spark - ответы на вопросы - Page 2 of 2

Data Science

Spark ALS-WR дает одинаковые рекомендуемые предметы для всех пользователей.

00

Вопрос или проблема Мы пытаемся создать рекомендательную систему для супермаркета с разнообразными типами товаров (от быстроразворачиваемых продуктов до медленноразворачивающихся электронных товаров). Некоторые товары покупаются чаще и в больших объемах

Вопросы и ответы

spark-submit с использованием опции –py-files не может найти путь к модулям

00

Вопрос или проблема Я пытаюсь запустить задачу pyspark в кластере EMR. Код для этой задачи находится в сжатом пакете, который размещен в S3: /bin/spark-submit \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline.zip \ pipeline.

Data Science

Pyspark Dataframes в Pandas и ML Ops – Задержка при параллельном выполнении?

00

Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции

Вопросы и ответы

Файлы .gz невозможно разделить. Но если я размещу их в HDFS, они создают несколько блоков в зависимости от размера блока.

00

Вопрос или проблема Мы все знаем, что .gz не может быть разбит, это значит, что его может читать только одно ядро. Это означает, что когда я помещаю огромный файл .gz в HDFS, он должен фактически находиться в виде одного блока.

Вопросы и ответы

Предоставляет ли Spark XGBoost способ освободить базовую память, выделенную модулями XGBoost на C++?

00

Вопрос или проблема Мы используем Spark для обучения или дообучения моделей с помощью Spark. По некоторым причинам мы хотим выгрузить модель из Spark и выполнить некоторые другие задачи после завершения обучения. Мы не уверены, как освободить всю память

Вопросы и ответы

Как преобразовать список в несколько столбцов и датафрейм?

00

Вопрос или проблема У меня сегодня задача: Имея список путей S3 в списке, разделить это и получить DataFrame с одним столбцом с путем и новым столбцом только с названием папки. Мой список содержит следующее: raw/ingest_date=20240918/eventos/ raw/ingest_date=20240918/llamadas/

Вопросы и ответы

Проблема с сохранением DataFrame в PySpark после вызова функции обновления из главного потока

00

Вопрос или проблема Я разработал отдельную функцию, которая вызывается из основной функции для обновления данных в определенной таблице. Эта функция принимает DataFrame в качестве входных данных, выполняет необходимые обновления и должна возвращать управление