Вопрос или проблема
Я ищу публичный набор данных изображений, которые отличаются друг от друга лишь незначительно, так что после применения PCA
их можно будет реконструировать с небольшой ошибкой из очень небольшого количества коэффициентов PCA
. Это могут быть любые типы изображений, цель заключается только в том, чтобы продемонстрировать крайний пример PCA
.
На самом деле в вашем случае чистые изображения не так важны. Важны признаки, которые вы извлекаете из них, потому что если ваше пространство признаков построено на основе интенсивности изображений в разных пиксельных элементах, то вам потребуется много коэффициентов. В качестве простого решения используйте цифры MNIST
и используйте признаки формы для извлечения признаков из изображений чисел. Вы можете использовать разумное количество признаков, а затем использовать PCA
для данных, которые находятся в новом пространстве признаков, которое вы только что построили. В этом случае потребуется меньшее количество коэффициентов, если признаки хороши.
Ответ или решение
Набор данных для PCA с низкоразмерными изображениями
Ваша задача заключается в поиске открытого набора данных, состоящего из изображений, которые отличаются друг от друга лишь незначительно. Это позволит вам продемонстрировать эффект применения метода главных компонент (PCA) с минимальной ошибкой реконструкции при использовании небольшого количества коэффициентов PCA.
Рекомендованный набор данных: Подбор MNIST и извлечение признаков
Одним из простых и доступных решений является использование набора данных MNIST, который состоит из изображений рукописных цифр. Этот набор данных известен своей простотой и удобством в обработке. Однако для достижения ваших целей потребуется дополнительно извлечь признаки на основе форм, что поможет уменьшить размерность данных и повлиять на эффективность PCA.
-
Извлечение признаков:
Исходные изображения MNIST имеют размер 28×28 пикселей, и если рассматривать их как наборы интенсивностей пикселей, многие коэффициенты будут нужны для объяснения вариаций в данных. Поэтому целесообразно воспользоваться методами извлечения признаков на основе формы. Такие методы могут включать:- Контурный анализ
- Фурье-диапазонные признаки
- Характеристики формы (например, моменты)
-
Формирование нового пространства признаков:
После извлечения признаков вам потребуется сформировать новое пространство признаков, в котором будут представлены интересующие вас свойства изображений цифр. Это сделает ваши данные менее многомерными, сохранив при этом важные характеристики. -
Применение PCA:
На новом пространстве признаков вы сможете применять метод PCA для сокращения размерности. Это поможет вам сохранить большую часть информации с помощью небольшого количества компонент. В результате, вы должны получить возможность реконструировать изображения с минимальной ошибкой, используя только несколько главных компонент.
Дополнительные наборы данных
Кроме MNIST, вы можете рассмотреть следующие наборы данных:
- CelebA: Набор данных с изображениями лиц, который может быть отфильтрован для получения похожих изображений, изменяющихся только по незначительным атрибутам.
- LFW (Labeled Faces in the Wild): Набор данных с фотографиями лиц, который также может быть использован для извлечения определенных признаков.
Рекомендации по работе с данными
- Предобработка данных: Убедитесь, что ваши данные предварительно обработаны — это включает нормализацию и масштабирование.
- Выбор количества компонент: Используйте метод объясненной дисперсии, чтобы определить, сколько компонент лучше использовать для достижения желаемого уровня точности реконструкции.
- Визуализация: Обязательно визуализируйте результаты PCA и реконструированные изображения, чтобы проиллюстрировать эффективность метода.
Заключение
Применение PCA на низкоразмерных данных, таких как MNIST, с извлечением признаков на основе формы, позволит вам без труда справиться с вашей задачей. Подобный подход обеспечит вам возможность продемонстрировать эффективность PCA даже на высоковариативных данных, используя при этом минимальное количество признаков, что идеально соответствует вашим требованиям.