Как уменьшить изменения положения после снижения размерности?

Question 1

Отказ от ответственности: Я начинающий в машинном обучении.

Я работаю над визуализацией многомерных данных (текст как векторы tdidf) в 2D-пространство. Моя цель – маркировать/модифицировать эти точки данных и пересчитывать их позиции после модификации, обновляя 2D-график. Логика уже работает, но каждая итеративная визуализация сильно отличается от предыдущей, хотя изменяется только 1 из 28.000 признаков в 1 точке данных.

Некоторые детали о проекте:

около 1000 текстовых документов/точек данных
около 28.000 признаков вектора tfidf в каждом
необходимо быстро вычислять (скажем, < 3с) из-за интерактивного характера

Вот 2 изображения для иллюстрации проблемы:

Шаг 1:

Шаг 2:

Я пробовал несколько алгоритмов уменьшения размерности, включая MDS, PCA, t-SNE, UMAP, LSI и автоэнкодер. Лучшие результаты по времени вычисления и визуальному представлению я получил с UMAP, поэтому в основном использовал его.

Пробегая по некоторым научным работам, я нашел эту с похожей проблемой (малое изменение в высоком измерении приводит к большому изменению в 2D):
https://ieeexplore.ieee.org/document/7539329
Вкратце, они используют t-SNE для инициализации каждого итеративного шага с результатом первого шага.

Во-первых: Как я бы мог это осуществить в коде? Это связано с random_state в t-SNE?

Во-вторых: Можно ли применить эту стратегию к другим алгоритмам, таким как UMAP? t-SNE занимает гораздо больше времени и не подходит для интерактивного использования.

Или существует какое-то лучшее решение, о котором я не подумал для этой проблемы?

Question 2

Вы можете инициализировать встраивание UMAP с помощью пользовательского набора начальных позиций, поэтому вы можете инициализировать шаг 2 с помощью встраивания с шага 1 (со случайными позициями для новых точек).

Question 3

Чтобы уменьшить изменение позиций, важно знать, как работает t-SNE.

t-SNE — это проекция из многомерного пространства в более низкое, обычно 2D или 3D.

Для упрощения возьмем 2D-пространство низкой размерности.

Это 2D-пространство низкой размерности развивается с каждой итерацией, пока не будет найден баланс, который как можно лучше представляет многомерное пространство.

Пространство низкой размерности — это пространство вероятности с только относительным значением расстояния между точками.

Следовательно, если зафиксировать некоторые ключевые точки, такие как центры тяжести каждого кластера из первого результата, и использовать их положение в новой 2D-карте низкой размерности t-SNE, новые данные должны организоваться в соответствии с этими фиксированными точками.

Вам необходимо на каждом новом взаимодействии изменять положение ключевых точек, чтобы удерживать их фиксированными. Остальные точки должны постепенно изменять положение относительно этих ключевых точек, и в конце вы получите сопоставимые результаты.

Как уменьшить изменения положения после снижения размерности?

Вопрос или проблема

Ответ или решение

Как уменьшить изменения позиций после понижения размерности?

Введение

Контекст и необходимость

Общие решения

Практическая реализация

Заключение и оптимизация