clustering - ответы на вопросы - Page 3 of 8

Data Science

Используйте кластеры в качестве зависимых переменных

00

Вопрос или проблема Я хотел спросить, знает ли кто-либо о типе двухэтапного анализа, где кластеры используются как зависимая переменная в прогнозных моделях? Например, предположим, что я использовал неконтролируемую модель на основе пяти категориальных

Data Science

Какой хороший индекс выбрать для определения числа кластеров, чтобы полученные кластеры были однородными?

00

Вопрос или проблема Я провожу кластеризацию по одномерному набору данных и мне нужен способ автоматически определить оптимальное количество кластеров из $k \in \{2, 3, 4, 5, 6\}$. Количество наблюдений для кластеризации невелико (обычно около 10-13).

Data Science

Является ли k-means с расстоянием Махаланобиса действительным вариантом для кластеризации?

00

Вопрос или проблема Я хочу получить больше информации о том, является ли k-means с расстоянием Махаланобиса математически/методологически корректным вариантом для наборов данных с различной дисперсией кластеров. Шаги следующие: Создайте агрегированные

Data Science

Как переобучить модель K-Modes на основе ежедневных данных?

00

Вопрос или проблема Я прочитал, что дообучение модели сильно зависит от того, чего вы пытаетесь достичь. Я понимаю, что, возможно, мне нужно дообучать свою модель ежедневно, а через некоторое время я должен обучить модель заново с нуля.

Data Science

Какие алгоритмы машинного обучения могут быть использованы для классификации траекторий?

00

Вопрос или проблема Я работаю над проектом по кластеризации воздушных объектов на основе их траекторий. Я хотел бы обучить модель на наборе данных с траекториями различных летающих объектов, чтобы позже я мог предсказать, к какому типу объекта относится

Data Science

Как определить новых потенциальных клиентов на основе профиля существующих клиентов?

00

Вопрос или проблема У меня есть фирмографические данные всех возможных клиентов. Данные включают продажи, прибыльность, капитал, размер организации, географическое расположение, отрасль и т.д. Каков лучший способ выявить новых потенциальных клиентов на основе этих данных?

Data Science

Поиск семантических дубликатов в наборе данных

00

Вопрос или проблема У меня есть одна интересная проблема, которую нужно решить прямо сейчас: У меня есть набор данных, содержащий тексты сообщений об ошибках. Каждая ошибка может быть записана совершенно по-разному. Сейчас мне нужно выяснить, есть ли

Data Science

Способы вычисления площади цветных участков на карте

00

Вопрос или проблема Предыстория Я аспирант, пытающийся улучшить свои навыки в области data science. Один из моих исследовательских проектов связан с определением размера кластеров на цветном изображении областей. Вот пример изображения, которое я использую.

Data Science

Метод выбора признаков для улучшения кластеризации?

00

Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у

Data Science

Инкрементный алгоритм кластеризации

01

Вопрос или проблема Я ищу инкрементный алгоритм кластеризации. Под инкрементным я понимаю алгоритм, который строит кластеры, начиная с начального набора данных и который способен постепенно добавлять новые элементы/наблюдения, добавляя их к существующим или новым кластерам.

Data Science

Существует ли алгоритм кластеризации, который может кластеризовать набор данных временных рядов на основе коэффициента вариации (или количества)?

00

Вопрос или проблема Я изучаю машинное обучение на основе scikit-learn и читаю его документацию. Кластеризация группирует группы на основе евклидова расстояния и фильтрует их различными способами, например, гауссовским распределением или методом смещения среднего…

Data Science

Присвоение точек подогнанным плоскостям

00

Вопрос или проблема Я работаю над проектом, связанным с подгонкой плоскостей к 3D облакам точек. Часть, отвечающая за подгонку плоскостей, работает хорошо, но я пытаюсь определить лучший способ ограничить подогнанные плоскости данными точками, к которым они подходят.

Data Science

Какие методы доступны для оценки сходства между различными алгоритмами кластеризации?

00

Вопрос или проблема Я провожу обширный анализ сегментации клиентов и на данный момент реализовал модели гауссовских смесей, алгоритм K-средних и иерархическую кластеризацию. В большинстве случаев алгоритмы согласны по структуре кластеров и количеству (7-8).

Data Science

Почему изменение числа кластеров изменяет график в K-means?

00

Вопрос или проблема Может быть, это глупый вопрос, но я не могу найти на него ответ. У меня нет идеального математического понимания kmeans, так что прошу прощения, если это так. Мне просто интересно, почему я вижу другой график, когда изменяю количество

Data Science

Как найти вертикальные кластеры в одномерных данных

00

Вопрос или проблема У меня есть остатки многомерных временных рядов, полученные с датчиков на сервере. Всплески на графиках остатка указывают на аномальное состояние сервера. Я хочу сгруппировать данные по вертикальным кластерам и получить индексы точек

Data Science

Определение потенциальных клиентов на основе их ранга и стоимости

00

Вопрос или проблема У меня есть набор данных, который содержит демографические данные для списка новых клиентов. В данных отсутствует информация о транзакциях клиентов. Я хочу определить 100 лучших потенциальных клиентов среди этих клиентов.

Data Science

Как настроить / выбрать параметр предпочтения для AffinityPropagation?

00

Вопрос или проблема У меня есть большой словарь “матриц парного сходства”, который будет выглядеть следующим образом: similarity['group1']: array([[1. , 0. , 0. , 0. , 0. ], [0. , 1. , 0.09 , 0.09 , 0. ], [0. , 0.09 , 1.

Data Science

Я ищу общие методы кластеризации на основе изображений.

00

Вопрос или проблема Моя задача состоит в том, чтобы кластеризовать некоторые изображения, я решил использовать модель VGG для извлечения признаков, а затем использовать метод K-средних для кластеризации этих признаков. Но у меня вопрос: когда я использую

Data Science

кластеризация k-средних по столбцам, а не строкам

00

Вопрос или проблема У меня есть таблица с более чем 100K строк и более 100 числовых столбцов. Вместо того чтобы использовать метод k-means для кластеризации строк вместе (и создания нового столбца category, который помечает каждую строку), я хочу кластеризовать

Data Science

Как сгруппировать тексты по наиболее актуальным словам

00

Вопрос или проблема У меня есть огромное количество документов, и каждый документ имеет свой собственный портрет, где портрет имеет такую структуру (document_id, слово, вес). В основном это TFIDF. Я хочу сгруппировать эти документы в разные кластеры, скажем, 10.