Каталог данных для неструктурированных данных для поиска/обнаружения и предоставления доступа (для пользователей, не являющихся инженерами данных или учеными в области данных)?

Question 1

Существуют ли какие-либо каталоги данных для неструктурированных данных (например, свободные CSV, PDF, .log, .sas и другие текстовые файлы) для поиска/поиска и предоставления доступа (для не пользователей данных инженеров/ученых)?

Я видел много каталогов данных, таких как Alation, Erwin, Collibra, Amundsen (это открытый код, если какие-либо инженеры данных ищут внутренний каталог), но все эти, по всей видимости, больше ориентированы на инженеров/ученых и сосредотачиваются только на обработке реляционных/табличных данных.

В нашем случае у нас есть…

Команды не пользователей данных (например, медицинские исследователи/биостатистики, аспиранты, работающие над проектами и т. д. (наша организация – это обучающая больница))
работающие в изолированных командах с собственными приватными наборами данных (о которых другие команды могут даже не иметь разрешения знать, что они существуют, например, чувствительные данные от внешних организаций, предоставленные только определенным лицам в команде)
но у них есть другие данные, которые они могут делиться (например, данные без идентификации, которые они сами генерируют)
(что мы хотим, чтобы другие команды могли находить/искать и запрашивать доступ, если они хотят)
все из которых управляются нашей организацией, поэтому мы должны знать о всех данных, которые мы поддерживаем в терминах
- какие данные есть (включая метаданные, такие как размер и “местоположение” в нашей системе)
- и кто имеет доступ (или запрашивает доступ) к этим данным
И большая часть этих данных (в дополнение к тому, что они находятся в таблицах SQL) может быть в форме неструктурированных данных, хранящихся на файловых серверах в нашей системе

Question 2

Вы можете взглянуть на Spectrum Discover. https://www.ibm.com/products/spectrum-discover. Он использовался некоторыми университетами.

Question 3

После короткой исследовательской встречи с Alation меня направили к Data Cookbook, который выглядит многообещающим (и, судя по всему, используется многими другими университетами). Я посмотрю подробнее и, возможно, обновлю этот ответ.

https://www.datacookbook.com/videos-2/ (как инженер данных, рекомендую смотреть видео в порядке: 1, 2, 5, 4, 3)

После просмотра предварительно записанных демонстрационных видео, я думаю, что это действительно выглядит довольно хорошо и может быть тем, что нам нужно для наших потребностей в каталогизации данных (в отличие от других технологий/систем каталогов данных, которые я видел с Erwin, Alation, Collibra, Amundsen и др., которые больше сосредоточены на структурированных данных для более технически ориентированных пользователей). Похоже, что его используют многие другие университеты (и MSU, PSU, Университет Бирмингема и др.) (подтверждая то, что мне говорили, когда меня изначально направили к ним люди из Alation, с которыми я встречался). Более подробную информацию можно найти здесь в этой оценке Университета Бирмингема по Data Cookbook для управления данными, каталогизации и отчетности: https://intranet.birmingham.ac.uk/it/innovation/documents/public/Experiments/TheDataCookBook-Evaluation-v0.1.pdf
Цены на маркетинг (https://www.datacookbook.com/pricing/) кажутся не такими дорогими, как некоторые другие ценовые категории, которые я видел
Также отмечу, что Amundsen от Lyft может быть хорошей системой внутреннего каталога данных с открытым исходным кодом для наших собственных аналитиков данных для каталогизации и создания поиска наших внутренних структурированных/табличных активов данных.
Основной вопрос, который я все еще не смог определить, заключался в том, могут ли определенные определения/спецификации быть скрыты от определенных пользователей / видимы только определенной подгруппе пользователей каталога. Похоже, что это так

“Вы можете предоставить группам пользователей разрешения на определения, спецификации и техническую информацию на основе функциональной области. Для спецификаций и определений эти разрешения – менеджер, редактор и зритель”

но я не совершенно уверен в данный момент (нужно увидеть это в действии).

Преамбула:

Определение против Спецификации?
Судя по видео, кажется, что они относятся к…

“Определение” = определение/запись отдельного актива данных (например, таблицы или набора неструктурированных данных)
“Спецификация” = деливеребл/отчет, включает описание и для какого/из какого системы данных он предназначен (например, это базовый отчет, панель управления PowerBI?). Могут быть связаны несколько определений (например, чтобы пользователи могли увидеть, какие активы данных используются в этом отчете).

Эта ссылка немного иллюстрирует различия/связи: https://youtu.be/5SQR0NmccMo

Хорошее описание общего рабочего процесса, который нацелен на поддержку Data Cookbook: https://youtu.be/jA-z9r8RnzA

Пользователи:

Аналитики:

Работает с запрашивающими пользователями по спецификациям (т.е. отчетам)
Каждый день могут входить и видеть новые запросы (“информационные запросы”) от конечных пользователей
или работать над спецификациями и определениями, над которыми они работают
Запрашивайте информацию у запрашивающих конечных пользователей
Одобрить спецификации для публикации в каталоге (может включать ссылку на отчет, если система отчетности это поддерживает (например, ссылка PowerBI))

Кураторы данных:

Работают с запрашивающими пользователями по определениям (т.е. записям об активах данных)
Могут быть назначены на подгруппу “функциональных областей”
Получают обновления, когда новые определения активов данных добавляются/обновляются в каталоге
Могут просматривать определения, запрашивать ввод от создателя/редактора (например, для разъяснения или обоснования) (кто затем получает уведомление)
Отправить электронное письмо с ссылкой на создание/предложение изменений определения актива данных к соответствующим пользователям для запроса дополнительных комментариев по предложенному созданию/изменениям
Одобрить или отклонить изменения для публикации в каталоге

Конечные пользователи:

Могут войти в веб-интерфейс
Искать данные
Оставлять комментарии о определении или спецификации (для уведомления кураторов данных или аналитиков)
Создавать запросы, если не могут найти нужные данные (для “библиотекаря” данных, чтобы либо направить их, либо начать процесс создания нового определения или спецификации для этих данных)

В гораздо меньшей степени, CKAN или Magda также могут подойти. Magda выглядит хорошим кандидатом для этого, хотя я ставлю под сомнение текущее состояние возможностей ограничения доступа пользователей, и CKAN в настоящее время не имеет каких-либо модерации, как это имеет iData. Обратите внимание, что magda требует либо использования облачных сервисов Google для хостинга (использует Terraform), либо наличие собственного кластера kubernetes для его хостинга. Также я вижу, что правительство Австралии использует его, но когда вы пытаетесь войти или создать учетную запись, вас перенаправляют на сайт, который использует CKAN. Интересно, в чем разница между CKAN и Magda?

Вопрос или проблема

Ответ или решение

Каталоги данных для неструктурированных данных: Поиск, открытие и предоставление доступа для конечных пользователей

Введение

Проблематика

Подходы к решению

Заключение

Рекомендации