Каталог данных для неструктурированных данных для поиска/обнаружения и предоставления доступа (для пользователей, не являющихся инженерами данных или учеными в области данных)?

Вопрос или проблема

Существуют ли какие-либо каталоги данных для неструктурированных данных (например, свободные CSV, PDF, .log, .sas и другие текстовые файлы) для поиска/поиска и предоставления доступа (для не пользователей данных инженеров/ученых)?

Я видел много каталогов данных, таких как Alation, Erwin, Collibra, Amundsen (это открытый код, если какие-либо инженеры данных ищут внутренний каталог), но все эти, по всей видимости, больше ориентированы на инженеров/ученых и сосредотачиваются только на обработке реляционных/табличных данных.

В нашем случае у нас есть…

  • Команды не пользователей данных (например, медицинские исследователи/биостатистики, аспиранты, работающие над проектами и т. д. (наша организация – это обучающая больница))
  • работающие в изолированных командах с собственными приватными наборами данных (о которых другие команды могут даже не иметь разрешения знать, что они существуют, например, чувствительные данные от внешних организаций, предоставленные только определенным лицам в команде)
  • но у них есть другие данные, которые они могут делиться (например, данные без идентификации, которые они сами генерируют)
  • (что мы хотим, чтобы другие команды могли находить/искать и запрашивать доступ, если они хотят)
  • все из которых управляются нашей организацией, поэтому мы должны знать о всех данных, которые мы поддерживаем в терминах
    • какие данные есть (включая метаданные, такие как размер и “местоположение” в нашей системе)
    • и кто имеет доступ (или запрашивает доступ) к этим данным
  • И большая часть этих данных (в дополнение к тому, что они находятся в таблицах SQL) может быть в форме неструктурированных данных, хранящихся на файловых серверах в нашей системе

Вы можете взглянуть на Spectrum Discover. https://www.ibm.com/products/spectrum-discover. Он использовался некоторыми университетами.

После короткой исследовательской встречи с Alation меня направили к Data Cookbook, который выглядит многообещающим (и, судя по всему, используется многими другими университетами). Я посмотрю подробнее и, возможно, обновлю этот ответ.

https://www.datacookbook.com/videos-2/ (как инженер данных, рекомендую смотреть видео в порядке: 1, 2, 5, 4, 3)


  1. После просмотра предварительно записанных демонстрационных видео, я думаю, что это действительно выглядит довольно хорошо и может быть тем, что нам нужно для наших потребностей в каталогизации данных (в отличие от других технологий/систем каталогов данных, которые я видел с Erwin, Alation, Collibra, Amundsen и др., которые больше сосредоточены на структурированных данных для более технически ориентированных пользователей). Похоже, что его используют многие другие университетыMSU, PSU, Университет Бирмингема и др.) (подтверждая то, что мне говорили, когда меня изначально направили к ним люди из Alation, с которыми я встречался). Более подробную информацию можно найти здесь в этой оценке Университета Бирмингема по Data Cookbook для управления данными, каталогизации и отчетности: https://intranet.birmingham.ac.uk/it/innovation/documents/public/Experiments/TheDataCookBook-Evaluation-v0.1.pdf

  2. Цены на маркетинг (https://www.datacookbook.com/pricing/) кажутся не такими дорогими, как некоторые другие ценовые категории, которые я видел

  3. Также отмечу, что Amundsen от Lyft может быть хорошей системой внутреннего каталога данных с открытым исходным кодом для наших собственных аналитиков данных для каталогизации и создания поиска наших внутренних структурированных/табличных активов данных.

  4. Основной вопрос, который я все еще не смог определить, заключался в том, могут ли определенные определения/спецификации быть скрыты от определенных пользователей / видимы только определенной подгруппе пользователей каталога. Похоже, что это так

“Вы можете предоставить группам пользователей разрешения на определения, спецификации и техническую информацию на основе функциональной области. Для спецификаций и определений эти разрешения – менеджер, редактор и зритель”

но я не совершенно уверен в данный момент (нужно увидеть это в действии).

Преамбула:

Определение против Спецификации?
Судя по видео, кажется, что они относятся к…

  • “Определение” = определение/запись отдельного актива данных (например, таблицы или набора неструктурированных данных)
  • “Спецификация” = деливеребл/отчет, включает описание и для какого/из какого системы данных он предназначен (например, это базовый отчет, панель управления PowerBI?). Могут быть связаны несколько определений (например, чтобы пользователи могли увидеть, какие активы данных используются в этом отчете).

Эта ссылка немного иллюстрирует различия/связи: https://youtu.be/5SQR0NmccMo

Хорошее описание общего рабочего процесса, который нацелен на поддержку Data Cookbook: https://youtu.be/jA-z9r8RnzA

Пользователи:

Аналитики:

  • Работает с запрашивающими пользователями по спецификациям (т.е. отчетам)
  • Каждый день могут входить и видеть новые запросы (“информационные запросы”) от конечных пользователей
  • или работать над спецификациями и определениями, над которыми они работают
  • Запрашивайте информацию у запрашивающих конечных пользователей
  • Одобрить спецификации для публикации в каталоге (может включать ссылку на отчет, если система отчетности это поддерживает (например, ссылка PowerBI))

Кураторы данных:

  • Работают с запрашивающими пользователями по определениям (т.е. записям об активах данных)
  • Могут быть назначены на подгруппу “функциональных областей”
  • Получают обновления, когда новые определения активов данных добавляются/обновляются в каталоге
  • Могут просматривать определения, запрашивать ввод от создателя/редактора (например, для разъяснения или обоснования) (кто затем получает уведомление)
  • Отправить электронное письмо с ссылкой на создание/предложение изменений определения актива данных к соответствующим пользователям для запроса дополнительных комментариев по предложенному созданию/изменениям
  • Одобрить или отклонить изменения для публикации в каталоге

Конечные пользователи:

  • Могут войти в веб-интерфейс
  • Искать данные
  • Оставлять комментарии о определении или спецификации (для уведомления кураторов данных или аналитиков)
  • Создавать запросы, если не могут найти нужные данные (для “библиотекаря” данных, чтобы либо направить их, либо начать процесс создания нового определения или спецификации для этих данных)

В гораздо меньшей степени, CKAN или Magda также могут подойти. Magda выглядит хорошим кандидатом для этого, хотя я ставлю под сомнение текущее состояние возможностей ограничения доступа пользователей, и CKAN в настоящее время не имеет каких-либо модерации, как это имеет iData. Обратите внимание, что magda требует либо использования облачных сервисов Google для хостинга (использует Terraform), либо наличие собственного кластера kubernetes для его хостинга. Также я вижу, что правительство Австралии использует его, но когда вы пытаетесь войти или создать учетную запись, вас перенаправляют на сайт, который использует CKAN. Интересно, в чем разница между CKAN и Magda?

Ответ или решение

Каталоги данных для неструктурированных данных: Поиск, открытие и предоставление доступа для конечных пользователей

Введение

В сфере управления данными спрос на мощные инструменты, которые могут помочь не только специалистам в области данных, но и пользователям, не имеющим технического образования, становится всё более актуальным. Это особенно важно в таких учреждениях, как учебные больницы, где исследователи и биостатистики часто работают с неструктурированными данными, такими как PDF-документы, журналы и другие текстовые файлы. В этом контексте использование каталогов данных для неструктурированных данных становится необходимостью.

Проблематика

Современные решения, такие как Alation, Erwin, Collibra и Amundsen, в основном ориентированы на инженеров данных и учёных, предоставляя поддержку для структурированных данных. Однако ваши пользователи, медицинские исследователи и аспиранты, нуждаются в системе, которая способна:

  • Предоставлять доступ к данным, включая неструктурированные файлы, такие как CSV, PDF и текстовые документы.
  • Обеспечивать возможность поиска и обнаружения этих данных.
  • Управлять доступом к данным, защищая их, если это необходимо (например, для конфиденциальных наборов данных).

Подходы к решению

  1. Data Cookbook

    • Преимущества: Это решение продемонстрировало свою эффективность в университетах и организациях, предоставляя возможность легко искать и управлять определениями данных и спецификациями.
    • Функционал: Пользователи могут оставлять комментарии, осуществлять запросы на доступ к данным и получать уведомления об обновлениях. Спецификации могут включать ссылки на отчёты, что делает процесс ещё более прозрачен.
    • Управление доступом: Важный аспект, на который стоит обратить внимание, – это возможность ограничения видимости определённых данных для определённых групп пользователей. Система позволяет предоставлять различные уровни доступа (менеджер, редактор, зритель).
  2. IBM Spectrum Discover

    • Описание: Данное решение позволяет обрабатывать и управлять неструктурированными данными и предоставлять им доступ через единый интерфейс.
    • Применение: Больницы и академические учреждения используют это решение для упрощения задач по каталогизации и обнаружению данных.
  3. Magda

    • Описание: Эта инструментальная платформа подходит для каталогизации данных и в значительной степени сфокусирована на открытых данных.
    • Ограничения: Учтите, что управление доступом и модерация в Магде могут быть ограничены, и требуется определённая инфраструктура для её развертывания.
  4. CKAN

    • Описание: Открытая платформа для управления данными, поддерживающая публикацию и обмен информацией.
    • Отсутствие функций модерации: В текущий момент CKAN не имеет настроек для модерации данных, что может быть критично для некоторых пользователей.

Заключение

Эффективный каталог данных для неструктурированных данных — это не только возможность поиска и доступа, но и управление правами пользователей. Data Cookbook ставит перед собой цель сделать данные доступными и понятными для не специалистов в области данных. IBM Spectrum Discover также предлагает возможности, которые могут быть полезны для учебных и медицинских учреждений. Выбор подходящего инструмента зависит от конкретных нужд вашей организации и структуры данных, которые вы обрабатываете.

Рекомендации

Для успешного внедрения каталогизации данных убедитесь в том, что:

  • Установлены чёткие требования к доступу и безопасности данных.
  • Проведены тренинги для конечных пользователей, чтобы повысить уверенность в работе с системой.
  • Регулярно обновляются и пересматриваются данные для обеспечения их актуальности и достоверности.

Эффективное управление неструктурированными данными может значительно увеличить продуктивность сотрудников и обеспечить более глубокое понимание доступных ресурсов.

Оцените материал
Добавить комментарий

Капча загружается...