databricks - ответы на вопросы

Вопросы и ответы

Как правильно измерить производительность ноутбука Databrick?

00

Вопрос или проблема Вот мой код для преобразования одного столбца фрейма данных в тип данных времени: col_value = df.select(df.columns[0]).first()[0] start_time = time.time() col_value = datetime.strftime(col_value, "%Y-%m-%d %H:%M:%S") \ if isinstance(col_value

Вопросы и ответы

Распаковать файл в Azure Blob-хранилище из Databricks

00

Вопрос или проблема Я пытаюсь разархивировать файл, который находится в контейнере Azure ADLS Gen2 через Azure Databricks Pyspark. Когда я использую ZipFile, получаю ошибку BadZipFile или FileNotFoundError. Я могу читать CSV-файлы в той же папке, но не ZIP-файлы.

Вопросы и ответы

Ошибка подключения Salesforce Data Cloud к Databricks: НЕЛЬЗЯ_ПОДТВЕРДИТЬ_ПОДКЛЮЧЕНИЕ и НЕДОПУСТИМОЕ_ЗНАЧЕНИЕ_ПАРАМЕТРА.ТИП_ПОДКЛЮЧЕНИЯ_НЕ_ВКЛЮЧЕН

00

Вопрос или проблема Я следую инструкциям в документации, чтобы настроить соединение от нашего приложения Salesforce Data Cloud к Databricks. Документация: https://learn.microsoft.com/en-us/azure/databricks/query-federation/salesforce-data-cloud В Catalog

Вопросы и ответы

Power BI Desktop к Databricks SQL Warehouse ошибка SSL_connect: проверка сертификата не удалась

00

Вопрос или проблема Я пытаюсь подключиться из Power BI Desktop к моим данным в Azure Data Lake Gen2 Storage через Databricks SQL Warehouse. Когда я ввожу имя хоста сервера и HTTP-путь в Azure Databricks Connector, я получаю следующее сообщение об ошибке

Вопросы и ответы

Ошибка 401: “Недостаточно данных для авторизации для доступа к конечным точкам обслуживания модели” с токеном OAuth на Databricks

00

Вопрос или проблема Я пытаюсь сгенерировать OAuth токен для моего рабочего пространства Azure Databricks для доступа к API модели в производстве. Код, который я использую, успешно генерирует токен, но я продолжаю получать ошибку 401 с сообщением “

Вопросы и ответы

Как выполнить внутреннее соединение потоков Spark с агрегированием?

00

Вопрос или проблема Я пытаюсь выполнить внутреннее соединение между двумя стриминговыми датафреймами, где на одном из датафреймов была выполнена агрегация. Результирующий датафрейм всегда оказывается пустым. Тестирование с статическими версиями одних

Вопросы и ответы

Как разделить строку на массив строк одинаковой длины в чистом SQL на Databricks

00

Вопрос или проблема У меня есть столбец в таблице со строками переменной длины: |value | |-------------| |abcdefgh | |1234567891011| Мне нужно разбить строки на массивы строк, где каждая строка длиной 2 (за исключением последней строки в случае нечетного числа символов).

Вопросы и ответы

Подсчет количества запятых в датафрейме PySpark с исключением запятых, заключенных в двойные кавычки.

00

Вопрос или проблема У меня есть строка, содержащаяся в столбце pyspark dataframe с именем text (один столбец). 30,kUsUO,6,18,97,42,”SAM,K,KARAN”,lmhYK,49,aLaTA,51,34,3,49,75,39,pdwvW,54,7,63,12,25,26,SJ12u,rUFUV,34,xXBv3,XHtz4,r4Fyh,14,20,0jZL2,izrsC,44,K5Kw3,8,tcKu7,5,RPLcy,kg4IR,Kvs3p,lyG09,dJmZB,34,84,7,qED2y,8uNen,5,96,81,88,bGgqK,FAsIV,81,YXZ,PQR,”

Вопросы и ответы

Как лучше всего итерировать/парсить df.collect() в pyspark (необычный формат данных)?

00

Вопрос или проблема Я использую Databricks pyspark, читаю объект из s3, но это не обычный CSV. У него есть заголовки и данные посередине файла, поэтому я читаю его таким образом. df = (spark.read .format("text") .option("mode", "PERMISSIVE") .

Вопросы и ответы

Защита паролем файла Excel (.xlsx) с помощью Python в Databricks

00

Вопрос или проблема Я хочу защитить Excel файл паролем, который доступен в S3 бакете, и сохранить его обратно в S3. Я попытался сделать это с помощью openpyxl и xlsxwriter, они создают xlsx файл, но он открывается без запроса пароля.

Вопросы и ответы

Проблема с сохранением DataFrame в PySpark после вызова функции обновления из главного потока

00

Вопрос или проблема Я разработал отдельную функцию, которая вызывается из основной функции для обновления данных в определенной таблице. Эта функция принимает DataFrame в качестве входных данных, выполняет необходимые обновления и должна возвращать управление