Вопросы и ответы
Ошибки при развертывании модели PyTorch Lightning в AWS SageMaker TrainingJobs: SMDDP не поддерживает ReduceOp.
00
Вопрос или проблема Я пытаюсь следовать рекомендациям DDP (Distributed Data Parallel) (Руководство 1, Руководство 2) и развернуть свои модели глубокого обучения на AWS SageMaker. Тем не менее, при запуске я сталкиваюсь со следующей ошибкой.
Вопросы и ответы
AWS Sagemaker ClientError: не указан канал обучения (ошибка файла манифеста)
00
Вопрос или проблема В качестве теста я запускаю train_manifest и validation_manifest, которые идентичны и содержат только один файл… {"source-ref": "s3://<имя_бакета>/bad_ofs/Images_final/Crushing/iO/A_2208040CA2_1430_220804-205516.
Вопросы и ответы
Более эффективный способ передачи данных в AWS Batch Transform Job
00
Вопрос или проблема У меня есть процесс в Sagemaker для обучения и проведения инференса на данных в Sagemaker: Обработка задания: чтение входных CSV файлов из S3 и очистка данных, вывод CSV файлов в S3 Обработка задания: чтение очищенных CSV данных из
Вопросы и ответы
Условная установка параметров конвейера Sagemaker
00
Вопрос или проблема Я пытаюсь добавить возможность включения/выключения использования спотовых инстансов в существующий конвейер Sagemaker. Для этого мне нужно использовать параметры Estimator use_spot_instances:boolean | PipelineVariable, max_wait: int