parquet
Вопросы и ответы
Вопрос или проблема Недавно я обнаружил, что когда Spark SQL считывает файлы Parquet, сгенерированные Presto, не все строки могут быть прочитаны. Например, для таблицы Presto в формате Parquet, содержащей 1000 строк, Spark SQL получает только 400 строк.
Вопросы и ответы
Вопрос или проблема Я создаю набор данных Parquet, разделённый по двум столбцам. Он создаётся непосредственно из 30 000 txt-файлов (по 100 тысяч строк каждый), которые слишком велики, чтобы загружать в память сразу. Я действую следующим образом: mydata <
Вопросы и ответы
Вопрос или проблема Я экспериментирую с PyArrow, но у меня есть некоторые трудности в понимании некоторых моментов. Что я хочу достичь, так это читать большой файл (CSV в этом примере) частями и сохранять каждую часть в виде файла Parquet.
Вопросы и ответы
Вопрос или проблема Мне нужно объединить несколько parquet файлов в Python в один файл parquet. Например, у меня есть 3 файла, как ниже Файл1 StudentId StudentName Address1 Address2 City ZipCode Файл2 StudentId StudentName MathGrade ScienceGrade HistoryGrade
Вопросы и ответы
Вопрос или проблема Закрыто. Этот вопрос ищет рекомендации по программным библиотекам, урокам, инструментам, книгам или другим внешним ресурсам. Он не соответствует руководству Stack Overflow. В настоящее время он не принимает ответы.
Вопросы и ответы
Вопрос или проблема Я запускаю задачу ECS Fargate в AWS, которая обрабатывает файлы Parquet из S3 с использованием библиотеки Polars в Python. Моя цель – динамически регулировать выделение процессорных ресурсов и памяти в зависимости от размера
Программное обеспечение
Вопрос или проблема Как указано в заголовке, я ищу простой просмотрщик файлов Parquet (с базовыми описаниями столбцов, типами и предварительным просмотром некоторых значений) на рабочем столе Ubuntu. Иногда я имею дело с некоторыми adhoc файлами.