Вопрос или проблема
Существуют ли какие-либо каталоги данных для неструктурированных данных (например, свободные CSV, PDF, .log, .sas и другие текстовые файлы) для поиска/поиска и предоставления доступа (для не пользователей данных инженеров/ученых)?
Я видел много каталогов данных, таких как Alation, Erwin, Collibra, Amundsen (это открытый код, если какие-либо инженеры данных ищут внутренний каталог), но все эти, по всей видимости, больше ориентированы на инженеров/ученых и сосредотачиваются только на обработке реляционных/табличных данных.
В нашем случае у нас есть…
- Команды не пользователей данных (например, медицинские исследователи/биостатистики, аспиранты, работающие над проектами и т. д. (наша организация – это обучающая больница))
- работающие в изолированных командах с собственными приватными наборами данных (о которых другие команды могут даже не иметь разрешения знать, что они существуют, например, чувствительные данные от внешних организаций, предоставленные только определенным лицам в команде)
- но у них есть другие данные, которые они могут делиться (например, данные без идентификации, которые они сами генерируют)
- (что мы хотим, чтобы другие команды могли находить/искать и запрашивать доступ, если они хотят)
- все из которых управляются нашей организацией, поэтому мы должны знать о всех данных, которые мы поддерживаем в терминах
-
- какие данные есть (включая метаданные, такие как размер и “местоположение” в нашей системе)
-
- и кто имеет доступ (или запрашивает доступ) к этим данным
- И большая часть этих данных (в дополнение к тому, что они находятся в таблицах SQL) может быть в форме неструктурированных данных, хранящихся на файловых серверах в нашей системе
Вы можете взглянуть на Spectrum Discover. https://www.ibm.com/products/spectrum-discover. Он использовался некоторыми университетами.
После короткой исследовательской встречи с Alation меня направили к Data Cookbook, который выглядит многообещающим (и, судя по всему, используется многими другими университетами). Я посмотрю подробнее и, возможно, обновлю этот ответ.
https://www.datacookbook.com/videos-2/ (как инженер данных, рекомендую смотреть видео в порядке: 1, 2, 5, 4, 3)
-
После просмотра предварительно записанных демонстрационных видео, я думаю, что это действительно выглядит довольно хорошо и может быть тем, что нам нужно для наших потребностей в каталогизации данных (в отличие от других технологий/систем каталогов данных, которые я видел с Erwin, Alation, Collibra, Amundsen и др., которые больше сосредоточены на структурированных данных для более технически ориентированных пользователей). Похоже, что его используют многие другие университеты (и MSU, PSU, Университет Бирмингема и др.) (подтверждая то, что мне говорили, когда меня изначально направили к ним люди из Alation, с которыми я встречался). Более подробную информацию можно найти здесь в этой оценке Университета Бирмингема по Data Cookbook для управления данными, каталогизации и отчетности: https://intranet.birmingham.ac.uk/it/innovation/documents/public/Experiments/TheDataCookBook-Evaluation-v0.1.pdf
-
Цены на маркетинг (https://www.datacookbook.com/pricing/) кажутся не такими дорогими, как некоторые другие ценовые категории, которые я видел
-
Также отмечу, что Amundsen от Lyft может быть хорошей системой внутреннего каталога данных с открытым исходным кодом для наших собственных аналитиков данных для каталогизации и создания поиска наших внутренних структурированных/табличных активов данных.
-
Основной вопрос, который я все еще не смог определить, заключался в том, могут ли определенные определения/спецификации быть скрыты от определенных пользователей / видимы только определенной подгруппе пользователей каталога. Похоже, что это так
“Вы можете предоставить группам пользователей разрешения на определения, спецификации и техническую информацию на основе функциональной области. Для спецификаций и определений эти разрешения – менеджер, редактор и зритель”
но я не совершенно уверен в данный момент (нужно увидеть это в действии).
Преамбула:
Определение против Спецификации?
Судя по видео, кажется, что они относятся к…
- “Определение” = определение/запись отдельного актива данных (например, таблицы или набора неструктурированных данных)
- “Спецификация” = деливеребл/отчет, включает описание и для какого/из какого системы данных он предназначен (например, это базовый отчет, панель управления PowerBI?). Могут быть связаны несколько определений (например, чтобы пользователи могли увидеть, какие активы данных используются в этом отчете).
Эта ссылка немного иллюстрирует различия/связи: https://youtu.be/5SQR0NmccMo
Хорошее описание общего рабочего процесса, который нацелен на поддержку Data Cookbook: https://youtu.be/jA-z9r8RnzA
Пользователи:
Аналитики:
- Работает с запрашивающими пользователями по спецификациям (т.е. отчетам)
- Каждый день могут входить и видеть новые запросы (“информационные запросы”) от конечных пользователей
- или работать над спецификациями и определениями, над которыми они работают
- Запрашивайте информацию у запрашивающих конечных пользователей
- Одобрить спецификации для публикации в каталоге (может включать ссылку на отчет, если система отчетности это поддерживает (например, ссылка PowerBI))
Кураторы данных:
- Работают с запрашивающими пользователями по определениям (т.е. записям об активах данных)
- Могут быть назначены на подгруппу “функциональных областей”
- Получают обновления, когда новые определения активов данных добавляются/обновляются в каталоге
- Могут просматривать определения, запрашивать ввод от создателя/редактора (например, для разъяснения или обоснования) (кто затем получает уведомление)
- Отправить электронное письмо с ссылкой на создание/предложение изменений определения актива данных к соответствующим пользователям для запроса дополнительных комментариев по предложенному созданию/изменениям
- Одобрить или отклонить изменения для публикации в каталоге
Конечные пользователи:
- Могут войти в веб-интерфейс
- Искать данные
- Оставлять комментарии о определении или спецификации (для уведомления кураторов данных или аналитиков)
- Создавать запросы, если не могут найти нужные данные (для “библиотекаря” данных, чтобы либо направить их, либо начать процесс создания нового определения или спецификации для этих данных)
В гораздо меньшей степени, CKAN или Magda также могут подойти. Magda выглядит хорошим кандидатом для этого, хотя я ставлю под сомнение текущее состояние возможностей ограничения доступа пользователей, и CKAN в настоящее время не имеет каких-либо модерации, как это имеет iData. Обратите внимание, что magda требует либо использования облачных сервисов Google для хостинга (использует Terraform), либо наличие собственного кластера kubernetes для его хостинга. Также я вижу, что правительство Австралии использует его, но когда вы пытаетесь войти или создать учетную запись, вас перенаправляют на сайт, который использует CKAN. Интересно, в чем разница между CKAN и Magda?
Ответ или решение
Каталоги данных для неструктурированных данных: Поиск, открытие и предоставление доступа для конечных пользователей
Введение
В сфере управления данными спрос на мощные инструменты, которые могут помочь не только специалистам в области данных, но и пользователям, не имеющим технического образования, становится всё более актуальным. Это особенно важно в таких учреждениях, как учебные больницы, где исследователи и биостатистики часто работают с неструктурированными данными, такими как PDF-документы, журналы и другие текстовые файлы. В этом контексте использование каталогов данных для неструктурированных данных становится необходимостью.
Проблематика
Современные решения, такие как Alation, Erwin, Collibra и Amundsen, в основном ориентированы на инженеров данных и учёных, предоставляя поддержку для структурированных данных. Однако ваши пользователи, медицинские исследователи и аспиранты, нуждаются в системе, которая способна:
- Предоставлять доступ к данным, включая неструктурированные файлы, такие как CSV, PDF и текстовые документы.
- Обеспечивать возможность поиска и обнаружения этих данных.
- Управлять доступом к данным, защищая их, если это необходимо (например, для конфиденциальных наборов данных).
Подходы к решению
-
Data Cookbook
- Преимущества: Это решение продемонстрировало свою эффективность в университетах и организациях, предоставляя возможность легко искать и управлять определениями данных и спецификациями.
- Функционал: Пользователи могут оставлять комментарии, осуществлять запросы на доступ к данным и получать уведомления об обновлениях. Спецификации могут включать ссылки на отчёты, что делает процесс ещё более прозрачен.
- Управление доступом: Важный аспект, на который стоит обратить внимание, – это возможность ограничения видимости определённых данных для определённых групп пользователей. Система позволяет предоставлять различные уровни доступа (менеджер, редактор, зритель).
-
IBM Spectrum Discover
- Описание: Данное решение позволяет обрабатывать и управлять неструктурированными данными и предоставлять им доступ через единый интерфейс.
- Применение: Больницы и академические учреждения используют это решение для упрощения задач по каталогизации и обнаружению данных.
-
Magda
- Описание: Эта инструментальная платформа подходит для каталогизации данных и в значительной степени сфокусирована на открытых данных.
- Ограничения: Учтите, что управление доступом и модерация в Магде могут быть ограничены, и требуется определённая инфраструктура для её развертывания.
-
CKAN
- Описание: Открытая платформа для управления данными, поддерживающая публикацию и обмен информацией.
- Отсутствие функций модерации: В текущий момент CKAN не имеет настроек для модерации данных, что может быть критично для некоторых пользователей.
Заключение
Эффективный каталог данных для неструктурированных данных — это не только возможность поиска и доступа, но и управление правами пользователей. Data Cookbook ставит перед собой цель сделать данные доступными и понятными для не специалистов в области данных. IBM Spectrum Discover также предлагает возможности, которые могут быть полезны для учебных и медицинских учреждений. Выбор подходящего инструмента зависит от конкретных нужд вашей организации и структуры данных, которые вы обрабатываете.
Рекомендации
Для успешного внедрения каталогизации данных убедитесь в том, что:
- Установлены чёткие требования к доступу и безопасности данных.
- Проведены тренинги для конечных пользователей, чтобы повысить уверенность в работе с системой.
- Регулярно обновляются и пересматриваются данные для обеспечения их актуальности и достоверности.
Эффективное управление неструктурированными данными может значительно увеличить продуктивность сотрудников и обеспечить более глубокое понимание доступных ресурсов.