Вопрос или проблема
Я хочу тегировать датасет в рамках выполнений в mlflow. Я пробовал .log_input, и это работает для хранения метаданных датасета. Однако теги не отображаются в интерфейсе. И к ним также нельзя получить доступ.
Где теги определены на уровне датасета? Если не в интерфейсе, то где они находятся??
Ответ или решение
Чтобы ответить на ваш вопрос о том, где определяются теги на уровне набора данных при использовании функции .log_input
в MLflow, важно понимать структуру хранения метаданных в MLflow.
Функция .log_input
действительно позволяет вам сохранять метаданные о наборах данных, включая такие атрибуты, как описание, схему и т.д. Однако, как вы заметили, теги, связанные с набором данных, не отображаются в веб-интерфейсе (UI) MLflow и могут быть недоступны для прямого просмотра.
Группировка метаданных
-
Хранение метаданных: При использовании
.log_input
метаданные о датасете сохраняются в базе данных, такой как SQLite, MySQL или PostgreSQL, в зависимости от того, что вы используете для хранения задач MLflow. В этой базе информации о наборе данных хранятся в соответствующих таблицах. -
Определение тегов: Теги на уровне датасета, которые вы хотите задать, не могут быть извлечены из UI MLflow, потому что функция
.log_input
не создает отдельные теги, такие какmlflow.log_param
илиmlflow.set_tags
. Вместо этого они расширяют функциональность обычного логирования для включения метаданных. -
Доступ к метаданным через API: Если вы хотите просмотреть или использовать эти метаданные, у вас есть возможность использовать API MLflow. С помощью таких методов, как
mlflow.get_artifact_uri()
, можно получить доступ к загруженным данным. Если метаданные для наборов данных сохраняются в формате JSON или другом структурированном виде, вы можете извлечь их программно. Например:import mlflow run_id = "<ваш_run_id>" artifact_uri = mlflow.get_artifact_uri(run_id)
После выполнения этого кода вы можете получить доступ к метаданным сохраненного набора данных.
Вывод
Таким образом, теги на уровне набора данных, связанные с .log_input
, не отображаются в пользовательском интерфейсе MLflow, но можно получить доступ к ним через базу данных или API. Важно иметь в виду возможность программного извлечения и обработки этих метаданных, чтобы использовать их для ваших аналитических или отчетных нужд.
Если у вас есть дополнительные вопросы или нужно уточнить детали, пожалуйста, дайте знать!