Окрашивание сходства на самоорганизующейся карте

Вопрос или проблема

Я реализовал алгоритм для обучения самоорганизующихся карт в Python, и, похоже, он работает хорошо. Я проверил с некоторыми размеченными данными, и карты хорошо изучают топологию. Вот некоторые изображения:

Я рассчитываю матрицу унифицированного расстояния для визуализации, которая, судя по второй картинке, не работает хорошо.

Я считаю, что окрашивание по сходству, как в карте мирового уровня бедности, разработанной профессорами Каски и Кохоненом, было бы подходящим для моего применения, но я не могу найти ясное объяснение, как его рассчитать. Процедура описана в статье “Советы по обработке и цветовой кодировке самоорганизующихся карт”, однако она пропускает некоторые технические детали, необходимые для реализации окрашивания по сходству. Вот изображение, на которое я ссылаюсь:

Может ли кто-нибудь помочь мне с точными шагами расчета карты окрашивания по сходству? Я искал везде в течение месяца и не могу найти объяснение.

Я точно не знаю, как было создано вышеупомянутое, но сделал нечто подобное в конце 90-х и недавно воспроизвел это, используя somoclu в Python. Хотя я не применял цвета обратно к ячейкам SOM, это было бы довольно просто.

Я разместил блокнот на kyso, надеюсь, он будет полезен.

Ответ или решение

Теория:

Самоорганизующиеся карты (SOM, от английского Self-Organizing Maps), предложенные Тейво Кохоненом, представляют собой метод кластеризации и визуализации данных. Основное назначение SOM — проекция сложных, многомерных данных на двумерную сетку, отражающую внутреннюю структуру данных. Элементы сетки, называемые нейронами или ячейками, "обучаются" так, чтобы в процессе самоорганизации лучше соответствовать структуре входных данных.

Одним из способов визуализации данных, размещённых на SOM, является использование цветовой кодировки, которая позволяет интуитивно понять степень схожести или различия между элементами на карте. Одной из известных техник в этой области является "Similarity Coloring", которая была опробована в таких проектах, как карта мирового уровня бедности, созданная профессором Каски и профессором Кохоненом. Хотя цель данной технике заключается в наглядном представлении структурных схожестей, её реализация может быть достаточно сложной из-за нехватки детализированной технической информации.

Пример:

Для лучшего понимания концепции вы можете рассмотреть следующий метод, известный как U-Matrix (Unified Distance Matrix). Он широко используется для визуализации самоорганизующихся карт, представляя взаимные расстояния между соседними нейронами на сетке. Чем больше расстояние между нейронами, тем более отличается пространственная структура данных. Однако проблемы с изображением U-Matrix могут возникать из-за неверной конфигурации или неправильной интерпретации данных, что, возможно, произошло в вашем случае второго изображения.

Поскольку вы предпочли "Similarity Coloring", упомянутую в трудах профессора Каски, но не смогли найти исчерпывающей информации, данный метод, вероятно, потребует других подходов. Важно понимать, что сама концепция основана на идее использования цветовой гаммы для выражения многомерных характеристик данных. В отличие от U-Matrix, который визуализирует расстояния, данный метод сосредоточен на представлении взаимных отношений данных через цветовую гамму.

Применение:

Для достижения "Similarity Coloring" в Python нужно следовать нескольким основным шагам. Хотя оригинальная статья может упускать ключевые детали, логический подход к алгоритму включает несколько этапов:

Инициализация и обучение SOM:
- Убедитесь, что ваша карта обучается правильно, и нейроны находятся в балансе с входными данными. Здесь может помочь использование библиотек вроде Somoclu, которые предоставляют мощные инструменты для работы с SOM в Python.
Вычисление расстояний:
- Вместо использования простого евклидова расстояния, рассмотрите возможность подсчета более сложных метрик для повышения точности отображения. Например, если имеются специфичные требования, можно использовать метод главных компонент (PCA) для понижения размерности перед визуализацией.
Ассоциация цвета:
- Используйте методы линейной или нелинейной трансформации для привязки численных характеристик нейронов к цветовому спектру. Более сложные техники могут включать Principal Component Analysis (PCA) для выделения основных характеристик, которые затем могут быть преобразованы в цветовую схему.
Реализация на практике:
- После получения цветовой схемы можно использовать её для визуализации на карте. В Python это может быть сделано с использованием библиотек, таких как Matplotlib для построения графиков и присвоения цветов соответствующим элементам карты.

Этот процесс может варьироваться в зависимости от конкретных характеристик вашей задачи и доступных данных. Если вас интересует конкретная реализация, например, через Somoclu, полезно будет изучить примеры в интернете или воспользоваться упомянутым нотебуком на платформе Kyso. Основное внимание стоит уделять корректному расчёту и интерпретации расстояний и их последующему преобразованию в цветовую палитру.

Таким образом, с учётом правильной настройки и понимания данных, вместе с квалифицированной реализацией, вы сможете получить успешную визуализацию посредством цветового кодирования на карте SOM.