apache-spark
Data Science
Вопрос или проблема Мы пытаемся создать рекомендательную систему для супермаркета с разнообразными типами товаров (от быстроразворачиваемых продуктов до медленноразворачивающихся электронных товаров). Некоторые товары покупаются чаще и в больших объемах
Вопросы и ответы
Вопрос или проблема Я пытаюсь запустить задачу pyspark в кластере EMR. Код для этой задачи находится в сжатом пакете, который размещен в S3: /bin/spark-submit \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline.zip \ pipeline.
Data Science
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Вопросы и ответы
Вопрос или проблема Мы все знаем, что .gz не может быть разбит, это значит, что его может читать только одно ядро. Это означает, что когда я помещаю огромный файл .gz в HDFS, он должен фактически находиться в виде одного блока.
Вопросы и ответы
Предоставляет ли Spark XGBoost способ освободить базовую память, выделенную модулями XGBoost на C++?
Вопрос или проблема Мы используем Spark для обучения или дообучения моделей с помощью Spark. По некоторым причинам мы хотим выгрузить модель из Spark и выполнить некоторые другие задачи после завершения обучения. Мы не уверены, как освободить всю память
Вопросы и ответы
Вопрос или проблема У меня сегодня задача: Имея список путей S3 в списке, разделить это и получить DataFrame с одним столбцом с путем и новым столбцом только с названием папки. Мой список содержит следующее: raw/ingest_date=20240918/eventos/ raw/ingest_date=20240918/llamadas/
Вопросы и ответы
Вопрос или проблема Я разработал отдельную функцию, которая вызывается из основной функции для обновления данных в определенной таблице. Эта функция принимает DataFrame в качестве входных данных, выполняет необходимые обновления и должна возвращать управление