Вопрос или проблема
Я создаю набор навыков Azure для Индексатора со следующими навыками:
- “@odata.type”: “#Microsoft.Skills.Util.DocumentExtractionSkill”, для
извлечения информации из PDF; - “@odata.type”: “#Microsoft.Skills.Vision.OcrSkill”, для чтения .jpeg
изображений, вставленных в PDF; - “@odata.type”: “#Microsoft.Skills.Text.MergeSkill”, для объединения
контента с выводом OcrSkill; - “@odata.type”: “#Microsoft.Skills.Text.SplitSkill”, для разделения
объединенного текста на перекрывающиеся сегменты для векторизации - “@odata.type”:
“#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill”, для векторизации
вывода Text.MergeSkill; - “@odata.type”: “#Microsoft.Skills.Text.KeyPhraseExtractionSkill”.
(для семантического поиска)
И я создал диалоговый Q&A на Ваших данных Azure promptflow для запроса документов в Индексе, используя gpt-4 и Ada.
Проблема: Как показано на картинке ниже,
promptflow не распознает графики или цвета в круговых диаграммах.
Вопросы:
- Как я могу решить эту проблему?
- Достаточно ли добавить #Microsoft.Skills.Vision.ImageAnalysisSkill?
Более общие вопросы:
- Какова лучшая стратегия (то есть набор навыков) для интерпретации и понимания различных типов графиков, таких как гистограммы, линейные диаграммы, графики и другие подобные визуализации?
Каждый комментарий приветствуется и поощряется.
.
Ответ или решение
Для решения проблемы распознавания графиков и цветов в круговых диаграммах в процессе индексирования с использованием Azure Cognitive Search, требуется более детально анализировать возможности существующих навыков и, возможно, включить дополнительные инструменты. Такой подход обеспечит не только повышение качества обработки данных, но и обогатит функциональность системы.
Теория
Azure Cognitive Search представляет собой мощный инструмент для обработки и индексирования данных, который использует различные "скиллы" (skills), подключаемые модули, позволяющие обрабатывать данные из различных источников. Однако, возможности отдельных скиллов имеют свои ограничения. Ваша текущая конфигурация уже включает ряд важных навыков для извлечения и обработки текстовой информации из PDF, таких как DocumentExtractionSkill
и OcrSkill
, которые обеспечивают получение и извлечение текста из документов и изображений. Однако они не предназначены для непосредственной обработки графических данных, таких как диаграммы или цветовые палитры.
Пример
Ваше текущие навыки, такие как DocumentExtractionSkill
для извлечения PDF и OcrSkill
для работы с изображениями, могут обработать текстовую информацию, но оставляют границы для обработки изображений. К примеру, OcrSkill
, возможно, хорошо распознает текст, встроенный в изображения, но не способен извлечь информацию о цветах и структуре графиков сам по себе. Наиболее подходящим решением в данном случае может быть интеграция ImageAnalysisSkill
.
Применение
-
Использование ImageAnalysisSkill: Это расширение позволит анализировать изображения не только на предмет текстового содержимого, но и с целью извлечения метаинформации, которая включает в себя данные о цветах и базовой структуре изображения. Таким образом, добавление
#Microsoft.Skills.Vision.ImageAnalysisSkill
в вашу функциональность может помочь в анализе изображений для распознавания круговых диаграмм и цветовой информации, что особенно важно для последующего анализа и интерпретации данных. -
Комплексное решение для графиков: Для более широкого понимания графиков и диаграмм, таких как гистограммы и линейные графики, дополнительно к
ImageAnalysisSkill
, можно рассмотреть использование сервисов машинного обучения с предобученными моделями или обучению своих моделей, которые смогут извлекать количественные показатели из визуализаций. Например, модели, тренированные на известных наборах данных, могут помочь в распознавании структуры графиков и их содержимого. -
Обработка цветовой информации: Если распознавание цветов является критическим элементом, вы можете усилить обработку цветовой информации, добавив специализированные алгоритмы или API, такие как Azure Custom Vision, для более глубокого анализа изображений, включая выделение цветовых схем.
-
Семантический анализ и интеграция: Продолжайте использовать
KeyPhraseExtractionSkill
иAzureOpenAIEmbeddingSkill
для семантического анализа и векторизации данных. Это обеспечивает контекстный анализ и интеграцию с Q&A на основе GPT-4 для взаимодействия с пользователями. -
Оценка и тестирование: Поскольку каждая среда и набор данных уникальны, рассматривайте возможность итерационного тестирования и улучшения конфигурации скиллов в зависимости от их производительности в обеспечении достижения цели. Проводите тестовые запуски и собирайте обратную связь для последующей оптимизации вашего решения.
Заключение
Проблема распознавания графических и цветовых данных в PDF-файлах требует комплексного и расширенного подхода к выбору и настройке навыков в Azure Cognitive Search. Интеграция ImageAnalysisSkill
, обучение специализированных моделей и адаптация существующих инструментов под ваши нужды могут значительно улучшить точность и эффективность обработки данных. Использование подобного подхода в конечном итоге позволит не только решить текущую проблему, но и предложит более универсальное и надежное решение для обработки визуальных данных.