clustering
Data Science
Вопрос или проблема У меня есть большой словарь “матриц парного сходства”, который будет выглядеть следующим образом: similarity['group1']: array([[1. , 0. , 0. , 0. , 0. ], [0. , 1. , 0.09 , 0.09 , 0. ], [0. , 0.09 , 1.
Data Science
Вопрос или проблема Моя задача состоит в том, чтобы кластеризовать некоторые изображения, я решил использовать модель VGG для извлечения признаков, а затем использовать метод K-средних для кластеризации этих признаков. Но у меня вопрос: когда я использую
Data Science
Вопрос или проблема У меня есть таблица с более чем 100K строк и более 100 числовых столбцов. Вместо того чтобы использовать метод k-means для кластеризации строк вместе (и создания нового столбца category, который помечает каждую строку), я хочу кластеризовать
Data Science
Вопрос или проблема У меня есть огромное количество документов, и каждый документ имеет свой собственный портрет, где портрет имеет такую структуру (document_id, слово, вес). В основном это TFIDF. Я хочу сгруппировать эти документы в разные кластеры, скажем, 10.
Data Science
Вопрос или проблема Существует ли способ выполнить кластеризацию на основе порога инерции, при котором инерция каждого кластера не может превышать определённую инерцию Я пробовал иерархическую кластеризацию с полным связыванием и порогом расстояния, но
Data Science
Вопрос или проблема Название может быть не самым подходящим для обращения к моему вопросу. Вот моя проблема У меня есть набор данных с 21 признаком. Я хочу кластеризовать данные, чтобы понять, есть ли какие-либо идеи, которые я могу получить, кластеризуя данные.
Data Science
Вопрос или проблема При заданном множестве ($m$ количество) n-мерных векторов, какой будет правильный подход к кластеризации их без обучения? Векторы фактически представляют собой паттерны. Например: Множество векторов представлено как $V$.
Data Science
Вопрос или проблема Я хотел бы получить несколько предложений о возможных направлениях, которые имели бы смысл в следующем контексте. В списке из 5000 клиентов были определены 3 оптимальных кластера с использованием Kmeans. Модель данных имеет 30 признаков
Data Science
Вопрос или проблема Пусть $A=\{A_1,A_2,\cdots,A_m\}$ и $B=\{B_1,B_2,\cdots,B_n\}$ — это два множества точек в $k$-мерном евклидовом пространстве. Каждая точка $A_i$ или $B_i$ может рассматриваться как вектор признаков выборки данных.
Data Science
Вопрос или проблема У меня есть два набора данных с похожей темой. Предположим, Набор данных A и Набор данных B. Используя модель top2vec (https://github.com/ddangelov/Top2Vec) (https://arxiv.org/abs/2008.09470) для каждого набора данных, я получил определенное количество тем.
Data Science
Вопрос или проблема Мне нужно использовать расстояние Хеллингера для сравнения массивов, которые не одинаковой длины. Как правильно это сделать? Ставить ноль в отсутствующих полях для более короткого массива не кажется мне лучшим методом.
Data Science
Вопрос или проблема У меня есть набор временных рядов, который я хотел бы передать в алгоритм кластеризации (например, k-средние, используя динамическое время для измерения расстояния). После стандартизации данных со средним значением 0 и дисперсией 1
Data Science
Вопрос или проблема Я работаю с сырыми текстовыми данными. Я использую кластеризацию, чтобы объединить общие слова в документах. Моя задача заключается в том, чтобы создать кластеры на основе конкретного списка слов, т.е. я хочу получить группу слов
Data Science
Вопрос или проблема Я хотел бы кластеризовать/сгруппировать кривые на приложенной картинке с помощью Python. Данные уже нормализованы, и мой подход заключается в использовании dtw (динамического временного выравнивания) для расчета расстояния, а затем
Data Science
Вопрос или проблема Я смотрю на HDBSCAN и задаюсь вопросом, является ли он делительным или агломеративным? Я понимаю оба подхода, но не понимаю, какой из них использует HDBSCAN. Ищу пояснения. Ответ дан в Пропозиции 1 в статье по HDBSCAN 1.
Программное обеспечение
Вопрос или проблема Который может кластеризовать небольшое количество точек на основе заданного максимального расстояния между ними. Только два измерения. Эта библиотека была в конце концов использована https://github.com/cdalitz/hclust-cpp .
Data Science
Вопрос или проблема Предположим, у меня есть множество различных классов, некоторые из которых связаны между собой. Моя модель имеет высокую точность классификации для некоторых классов, в то время как другие классы сложно предсказать.
Data Science
Вопрос или проблема Я работаю над исследовательской работой о надежной схеме агрегации федеративного обучения для защиты от атакующих. У меня есть 1D массив оценок доверия для клиентов, и мне нужно сгруппировать их, чтобы выявить честных клиентов (с наивысшими оценками).
Data Science
Вопрос или проблема Я работаю с набором данных, который, помимо возраста и дохода клиентов, показывает баланс, который есть у клиента на различных типах банковских счетов: расчетные, акции, инвестиции, сбережения, депозиты, ипотека, кредит и сертификаты.
Data Science
Вопрос или проблема У меня есть переменная цвета с значениями для различных товаров электронной коммерции, таких как – оливковый, бирюзовый, синий, зеленый и т.д. Я хочу сгруппировать эти цвета по основным цветовым значениям. Например –