clustering - ответы на вопросы - Page 4 of 8

Data Science

Кластеризация на основе максимальной инерции

00

Вопрос или проблема Существует ли способ выполнить кластеризацию на основе порога инерции, при котором инерция каждого кластера не может превышать определённую инерцию Я пробовал иерархическую кластеризацию с полным связыванием и порогом расстояния, но

Data Science

Как оценить и визуализировать кластеры, полученные с помощью PCA.

00

Вопрос или проблема Название может быть не самым подходящим для обращения к моему вопросу. Вот моя проблема У меня есть набор данных с 21 признаком. Я хочу кластеризовать данные, чтобы понять, есть ли какие-либо идеи, которые я могу получить, кластеризуя данные.

Data Science

Кластеризация набора векторов

00

Вопрос или проблема При заданном множестве ($m$ количество) n-мерных векторов, какой будет правильный подход к кластеризации их без обучения? Векторы фактически представляют собой паттерны. Например: Множество векторов представлено как $V$.

Data Science

Уровни после кластеризации с помощью Kmeans

00

Вопрос или проблема Я хотел бы получить несколько предложений о возможных направлениях, которые имели бы смысл в следующем контексте. В списке из 5000 клиентов были определены 3 оптимальных кластера с использованием Kmeans. Модель данных имеет 30 признаков

Data Science

Стандартная метрика для расстояния между двумя кластерами

00

Вопрос или проблема Пусть $A=\{A_1,A_2,\cdots,A_m\}$ и $B=\{B_1,B_2,\cdots,B_n\}$ — это два множества точек в $k$-мерном евклидовом пространстве. Каждая точка $A_i$ или $B_i$ может рассматриваться как вектор признаков выборки данных.

Data Science

Как сравнить темы, сгенерированные с помощью тематического моделирования из разных наборов данных?

00

Вопрос или проблема У меня есть два набора данных с похожей темой. Предположим, Набор данных A и Набор данных B. Используя модель top2vec (https://github.com/ddangelov/Top2Vec) (https://arxiv.org/abs/2008.09470) для каждого набора данных, я получил определенное количество тем.

Data Science

Как я могу использовать расстояние Хеллингера на массивах разной длины?

01

Вопрос или проблема Мне нужно использовать расстояние Хеллингера для сравнения массивов, которые не одинаковой длины. Как правильно это сделать? Ставить ноль в отсутствующих полях для более короткого массива не кажется мне лучшим методом.

Data Science

Стационарные временные ряды для алгоритмов кластеризации

00

Вопрос или проблема У меня есть набор временных рядов, который я хотел бы передать в алгоритм кластеризации (например, k-средние, используя динамическое время для измерения расстояния). После стандартизации данных со средним значением 0 и дисперсией 1

Data Science

Создайте кластеры на основе конкретных ключевых слов.

00

Вопрос или проблема Я работаю с сырыми текстовыми данными. Я использую кластеризацию, чтобы объединить общие слова в документах. Моя задача заключается в том, чтобы создать кластеры на основе конкретного списка слов, т.е. я хочу получить группу слов

Data Science

Кластеризация временных рядов с использованием динамического временного выравнивания

00

Вопрос или проблема Я хотел бы кластеризовать/сгруппировать кривые на приложенной картинке с помощью Python. Данные уже нормализованы, и мой подход заключается в использовании dtw (динамического временного выравнивания) для расчета расстояния, а затем

Data Science

Является ли HDBSCAN агломеративной иерархической кластеризацией?

00

Вопрос или проблема Я смотрю на HDBSCAN и задаюсь вопросом, является ли он делительным или агломеративным? Я понимаю оба подхода, но не понимаю, какой из них использует HDBSCAN. Ищу пояснения. Ответ дан в Пропозиции 1 в статье по HDBSCAN 1.

Программное обеспечение

Бесплатная библиотека C++, реализующая иерархическую кластеризацию или подобное.

00

Вопрос или проблема Который может кластеризовать небольшое количество точек на основе заданного максимального расстояния между ними. Только два измерения. Эта библиотека была в конце концов использована https://github.com/cdalitz/hclust-cpp .

Data Science

Группировка похожих классов для повышения точности, при этом максимизируя количество классов.

00

Вопрос или проблема Предположим, у меня есть множество различных классов, некоторые из которых связаны между собой. Моя модель имеет высокую точность классификации для некоторых классов, в то время как другие классы сложно предсказать.

Data Science

1D ‘Кластеризация’

00

Вопрос или проблема Я работаю над исследовательской работой о надежной схеме агрегации федеративного обучения для защиты от атакующих. У меня есть 1D массив оценок доверия для клиентов, и мне нужно сгруппировать их, чтобы выявить честных клиентов (с наивысшими оценками).

Data Science

Сегментация клиентов: Должен ли я использовать переменную, представляющую продукт, который непопулярен в наборе данных для кластеризации K-средних?

00

Вопрос или проблема Я работаю с набором данных, который, помимо возраста и дохода клиентов, показывает баланс, который есть у клиента на различных типах банковских счетов: расчетные, акции, инвестиции, сбережения, депозиты, ипотека, кредит и сертификаты.

Data Science

Как разбить значения цвета (категориальные – высокая кардинальность) на основные цвета?

00

Вопрос или проблема У меня есть переменная цвета с значениями для различных товаров электронной коммерции, таких как – оливковый, бирюзовый, синий, зеленый и т.д. Я хочу сгруппировать эти цвета по основным цветовым значениям. Например –

Data Science

Elasticsearch + Кластеризация

00

Вопрос или проблема В настоящее время я работаю над проектом, который основывается на кластеризации документов в неопределенное количество кластеров на основе порога схожести (в идеале с использованием косинусного расстояния между векторами tf-idf).

Data Science

Моделирование тем на длинных документах: сначала кластеризация внутри документа

00

Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.

Data Science

Кластеризация с иерархическими зависимостями данных

00

Вопрос или проблема В настоящее время я изучаю, как объединить данные с иерархическими зависимостями. Пример проблемы, которую я хочу кластеризовать: мы хотели бы сгруппировать города, чтобы выявить сходные характеристики по отношению к жителям.

Data Science

Могу ли я использовать кластеризацию после классификации для улучшения производительности моего классификатора?

00

Вопрос или проблема Предположим, у меня есть классификатор, который сегментирует мои векторные характеристики (например, представляющие соискателей) на 3 разных сегмента A, B, C, присваивая каждому соискателю оценку от 0 (хуже) до 1 (лучше) с помощью