parquet - ответы на вопросы

Вопросы и ответы

Spark пропускает некоторые строки при чтении parquet-файлов, сгенерированных Presto.

00

Вопрос или проблема Недавно я обнаружил, что когда Spark SQL считывает файлы Parquet, сгенерированные Presto, не все строки могут быть прочитаны. Например, для таблицы Presto в формате Parquet, содержащей 1000 строк, Spark SQL получает только 400 строк.

Вопросы и ответы

Функция write_dataset() создает тысячи маленьких файлов Parquet внутри раздела.

00

Вопрос или проблема Я создаю набор данных Parquet, разделённый по двум столбцам. Он создаётся непосредственно из 30 000 txt-файлов (по 100 тысяч строк каждый), которые слишком велики, чтобы загружать в память сразу. Я действую следующим образом: mydata <

Вопросы и ответы

Читать большой файл из API по частям и записывать каждую часть в качестве файла Parquet с помощью PyArrow

00

Вопрос или проблема Я экспериментирую с PyArrow, но у меня есть некоторые трудности в понимании некоторых моментов. Что я хочу достичь, так это читать большой файл (CSV в этом примере) частями и сохранять каждую часть в виде файла Parquet.

Вопросы и ответы

Объединение нескольких файлов parquet в один файл на Python

00

Вопрос или проблема Мне нужно объединить несколько parquet файлов в Python в один файл parquet. Например, у меня есть 3 файла, как ниже Файл1 StudentId StudentName Address1 Address2 City ZipCode Файл2 StudentId StudentName MathGrade ScienceGrade HistoryGrade

Вопросы и ответы

Какую библиотеку использовать для записи Delta Parquet в .NET? [закрыто]

00

Вопрос или проблема Закрыто. Этот вопрос ищет рекомендации по программным библиотекам, урокам, инструментам, книгам или другим внешним ресурсам. Он не соответствует руководству Stack Overflow. В настоящее время он не принимает ответы.

Вопросы и ответы

Как определить оптимальные ЦП и память для задач ECS Fargate на основе размера файлов Parquet.

00

Вопрос или проблема Я запускаю задачу ECS Fargate в AWS, которая обрабатывает файлы Parquet из S3 с использованием библиотеки Polars в Python. Моя цель – динамически регулировать выделение процессорных ресурсов и памяти в зависимости от размера

Программное обеспечение

Бесплатный и открытый просмотрщик файлов Parquet для Ubuntu

00

Вопрос или проблема Как указано в заголовке, я ищу простой просмотрщик файлов Parquet (с базовыми описаниями столбцов, типами и предварительным просмотром некоторых значений) на рабочем столе Ubuntu. Иногда я имею дело с некоторыми adhoc файлами.