Вопросы и ответы
Spark пропускает некоторые строки при чтении parquet-файлов, сгенерированных Presto.
00
Вопрос или проблема Недавно я обнаружил, что когда Spark SQL считывает файлы Parquet, сгенерированные Presto, не все строки могут быть прочитаны. Например, для таблицы Presto в формате Parquet, содержащей 1000 строк, Spark SQL получает только 400 строк.
Вопросы и ответы
Функция write_dataset() создает тысячи маленьких файлов Parquet внутри раздела.
00
Вопрос или проблема Я создаю набор данных Parquet, разделённый по двум столбцам. Он создаётся непосредственно из 30 000 txt-файлов (по 100 тысяч строк каждый), которые слишком велики, чтобы загружать в память сразу. Я действую следующим образом: mydata <
Вопросы и ответы
Читать большой файл из API по частям и записывать каждую часть в качестве файла Parquet с помощью PyArrow
00
Вопрос или проблема Я экспериментирую с PyArrow, но у меня есть некоторые трудности в понимании некоторых моментов. Что я хочу достичь, так это читать большой файл (CSV в этом примере) частями и сохранять каждую часть в виде файла Parquet.
Вопросы и ответы
Объединение нескольких файлов parquet в один файл на Python
00
Вопрос или проблема Мне нужно объединить несколько parquet файлов в Python в один файл parquet. Например, у меня есть 3 файла, как ниже Файл1 StudentId StudentName Address1 Address2 City ZipCode Файл2 StudentId StudentName MathGrade ScienceGrade HistoryGrade
Вопросы и ответы
Какую библиотеку использовать для записи Delta Parquet в .NET? [закрыто]
00
Вопрос или проблема Закрыто. Этот вопрос ищет рекомендации по программным библиотекам, урокам, инструментам, книгам или другим внешним ресурсам. Он не соответствует руководству Stack Overflow. В настоящее время он не принимает ответы.
Вопросы и ответы
Как определить оптимальные ЦП и память для задач ECS Fargate на основе размера файлов Parquet.
00
Вопрос или проблема Я запускаю задачу ECS Fargate в AWS, которая обрабатывает файлы Parquet из S3 с использованием библиотеки Polars в Python. Моя цель – динамически регулировать выделение процессорных ресурсов и памяти в зависимости от размера
Программное обеспечение
Бесплатный и открытый просмотрщик файлов Parquet для Ubuntu
00
Вопрос или проблема Как указано в заголовке, я ищу простой просмотрщик файлов Parquet (с базовыми описаниями столбцов, типами и предварительным просмотром некоторых значений) на рабочем столе Ubuntu. Иногда я имею дело с некоторыми adhoc файлами.