Data Science
Как настроить / выбрать параметр предпочтения для AffinityPropagation?
00
Вопрос или проблема У меня есть большой словарь “матриц парного сходства”, который будет выглядеть следующим образом: similarity['group1']: array([[1. , 0. , 0. , 0. , 0. ], [0. , 1. , 0.09 , 0.09 , 0. ], [0. , 0.09 , 1.
Data Science
Я ищу общие методы кластеризации на основе изображений.
00
Вопрос или проблема Моя задача состоит в том, чтобы кластеризовать некоторые изображения, я решил использовать модель VGG для извлечения признаков, а затем использовать метод K-средних для кластеризации этих признаков. Но у меня вопрос: когда я использую
Data Science
кластеризация k-средних по столбцам, а не строкам
00
Вопрос или проблема У меня есть таблица с более чем 100K строк и более 100 числовых столбцов. Вместо того чтобы использовать метод k-means для кластеризации строк вместе (и создания нового столбца category, который помечает каждую строку), я хочу кластеризовать
Data Science
Как сгруппировать тексты по наиболее актуальным словам
00
Вопрос или проблема У меня есть огромное количество документов, и каждый документ имеет свой собственный портрет, где портрет имеет такую структуру (document_id, слово, вес). В основном это TFIDF. Я хочу сгруппировать эти документы в разные кластеры, скажем, 10.
Data Science
Кластеризация на основе максимальной инерции
00
Вопрос или проблема Существует ли способ выполнить кластеризацию на основе порога инерции, при котором инерция каждого кластера не может превышать определённую инерцию Я пробовал иерархическую кластеризацию с полным связыванием и порогом расстояния, но
Data Science
Как оценить и визуализировать кластеры, полученные с помощью PCA.
00
Вопрос или проблема Название может быть не самым подходящим для обращения к моему вопросу. Вот моя проблема У меня есть набор данных с 21 признаком. Я хочу кластеризовать данные, чтобы понять, есть ли какие-либо идеи, которые я могу получить, кластеризуя данные.
Data Science
Кластеризация набора векторов
00
Вопрос или проблема При заданном множестве ($m$ количество) n-мерных векторов, какой будет правильный подход к кластеризации их без обучения? Векторы фактически представляют собой паттерны. Например: Множество векторов представлено как $V$.
Data Science
Уровни после кластеризации с помощью Kmeans
00
Вопрос или проблема Я хотел бы получить несколько предложений о возможных направлениях, которые имели бы смысл в следующем контексте. В списке из 5000 клиентов были определены 3 оптимальных кластера с использованием Kmeans. Модель данных имеет 30 признаков
Data Science
Стандартная метрика для расстояния между двумя кластерами
00
Вопрос или проблема Пусть $A=\{A_1,A_2,\cdots,A_m\}$ и $B=\{B_1,B_2,\cdots,B_n\}$ — это два множества точек в $k$-мерном евклидовом пространстве. Каждая точка $A_i$ или $B_i$ может рассматриваться как вектор признаков выборки данных.
Data Science
Как сравнить темы, сгенерированные с помощью тематического моделирования из разных наборов данных?
00
Вопрос или проблема У меня есть два набора данных с похожей темой. Предположим, Набор данных A и Набор данных B. Используя модель top2vec (https://github.com/ddangelov/Top2Vec) (https://arxiv.org/abs/2008.09470) для каждого набора данных, я получил определенное количество тем.
Data Science
Как я могу использовать расстояние Хеллингера на массивах разной длины?
00
Вопрос или проблема Мне нужно использовать расстояние Хеллингера для сравнения массивов, которые не одинаковой длины. Как правильно это сделать? Ставить ноль в отсутствующих полях для более короткого массива не кажется мне лучшим методом.
Data Science
Стационарные временные ряды для алгоритмов кластеризации
00
Вопрос или проблема У меня есть набор временных рядов, который я хотел бы передать в алгоритм кластеризации (например, k-средние, используя динамическое время для измерения расстояния). После стандартизации данных со средним значением 0 и дисперсией 1
Data Science
Создайте кластеры на основе конкретных ключевых слов.
00
Вопрос или проблема Я работаю с сырыми текстовыми данными. Я использую кластеризацию, чтобы объединить общие слова в документах. Моя задача заключается в том, чтобы создать кластеры на основе конкретного списка слов, т.е. я хочу получить группу слов
Data Science
Кластеризация временных рядов с использованием динамического временного выравнивания
00
Вопрос или проблема Я хотел бы кластеризовать/сгруппировать кривые на приложенной картинке с помощью Python. Данные уже нормализованы, и мой подход заключается в использовании dtw (динамического временного выравнивания) для расчета расстояния, а затем
Data Science
Является ли HDBSCAN агломеративной иерархической кластеризацией?
00
Вопрос или проблема Я смотрю на HDBSCAN и задаюсь вопросом, является ли он делительным или агломеративным? Я понимаю оба подхода, но не понимаю, какой из них использует HDBSCAN. Ищу пояснения. Ответ дан в Пропозиции 1 в статье по HDBSCAN 1.
Программное обеспечение
Бесплатная библиотека C++, реализующая иерархическую кластеризацию или подобное.
00
Вопрос или проблема Который может кластеризовать небольшое количество точек на основе заданного максимального расстояния между ними. Только два измерения. Эта библиотека была в конце концов использована https://github.com/cdalitz/hclust-cpp .
Data Science
Группировка похожих классов для повышения точности, при этом максимизируя количество классов.
00
Вопрос или проблема Предположим, у меня есть множество различных классов, некоторые из которых связаны между собой. Моя модель имеет высокую точность классификации для некоторых классов, в то время как другие классы сложно предсказать.
Data Science
1D ‘Кластеризация’
00
Вопрос или проблема Я работаю над исследовательской работой о надежной схеме агрегации федеративного обучения для защиты от атакующих. У меня есть 1D массив оценок доверия для клиентов, и мне нужно сгруппировать их, чтобы выявить честных клиентов (с наивысшими оценками).
Data Science
Сегментация клиентов: Должен ли я использовать переменную, представляющую продукт, который непопулярен в наборе данных для кластеризации K-средних?
00
Вопрос или проблема Я работаю с набором данных, который, помимо возраста и дохода клиентов, показывает баланс, который есть у клиента на различных типах банковских счетов: расчетные, акции, инвестиции, сбережения, депозиты, ипотека, кредит и сертификаты.
Data Science
Как разбить значения цвета (категориальные – высокая кардинальность) на основные цвета?
00
Вопрос или проблема У меня есть переменная цвета с значениями для различных товаров электронной коммерции, таких как – оливковый, бирюзовый, синий, зеленый и т.д. Я хочу сгруппировать эти цвета по основным цветовым значениям. Например –