clustering
Data Science
Вопрос или проблема Я хотел спросить, знает ли кто-либо о типе двухэтапного анализа, где кластеры используются как зависимая переменная в прогнозных моделях? Например, предположим, что я использовал неконтролируемую модель на основе пяти категориальных
Data Science
Вопрос или проблема Я провожу кластеризацию по одномерному набору данных и мне нужен способ автоматически определить оптимальное количество кластеров из $k \in \{2, 3, 4, 5, 6\}$. Количество наблюдений для кластеризации невелико (обычно около 10-13).
Data Science
Вопрос или проблема Я хочу получить больше информации о том, является ли k-means с расстоянием Махаланобиса математически/методологически корректным вариантом для наборов данных с различной дисперсией кластеров. Шаги следующие: Создайте агрегированные
Data Science
Вопрос или проблема Я прочитал, что дообучение модели сильно зависит от того, чего вы пытаетесь достичь. Я понимаю, что, возможно, мне нужно дообучать свою модель ежедневно, а через некоторое время я должен обучить модель заново с нуля.
Data Science
Вопрос или проблема Я работаю над проектом по кластеризации воздушных объектов на основе их траекторий. Я хотел бы обучить модель на наборе данных с траекториями различных летающих объектов, чтобы позже я мог предсказать, к какому типу объекта относится
Data Science
Вопрос или проблема У меня есть фирмографические данные всех возможных клиентов. Данные включают продажи, прибыльность, капитал, размер организации, географическое расположение, отрасль и т.д. Каков лучший способ выявить новых потенциальных клиентов на основе этих данных?
Data Science
Вопрос или проблема У меня есть одна интересная проблема, которую нужно решить прямо сейчас: У меня есть набор данных, содержащий тексты сообщений об ошибках. Каждая ошибка может быть записана совершенно по-разному. Сейчас мне нужно выяснить, есть ли
Data Science
Вопрос или проблема Предыстория Я аспирант, пытающийся улучшить свои навыки в области data science. Один из моих исследовательских проектов связан с определением размера кластеров на цветном изображении областей. Вот пример изображения, которое я использую.
Data Science
Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у
Data Science
Вопрос или проблема Я ищу инкрементный алгоритм кластеризации. Под инкрементным я понимаю алгоритм, который строит кластеры, начиная с начального набора данных и который способен постепенно добавлять новые элементы/наблюдения, добавляя их к существующим или новым кластерам.
Data Science
Вопрос или проблема Я изучаю машинное обучение на основе scikit-learn и читаю его документацию. Кластеризация группирует группы на основе евклидова расстояния и фильтрует их различными способами, например, гауссовским распределением или методом смещения среднего…
Data Science
Вопрос или проблема Я работаю над проектом, связанным с подгонкой плоскостей к 3D облакам точек. Часть, отвечающая за подгонку плоскостей, работает хорошо, но я пытаюсь определить лучший способ ограничить подогнанные плоскости данными точками, к которым они подходят.
Data Science
Вопрос или проблема Я провожу обширный анализ сегментации клиентов и на данный момент реализовал модели гауссовских смесей, алгоритм K-средних и иерархическую кластеризацию. В большинстве случаев алгоритмы согласны по структуре кластеров и количеству (7-8).
Data Science
Вопрос или проблема Может быть, это глупый вопрос, но я не могу найти на него ответ. У меня нет идеального математического понимания kmeans, так что прошу прощения, если это так. Мне просто интересно, почему я вижу другой график, когда изменяю количество
Data Science
Вопрос или проблема У меня есть остатки многомерных временных рядов, полученные с датчиков на сервере. Всплески на графиках остатка указывают на аномальное состояние сервера. Я хочу сгруппировать данные по вертикальным кластерам и получить индексы точек
Data Science
Вопрос или проблема У меня есть набор данных, который содержит демографические данные для списка новых клиентов. В данных отсутствует информация о транзакциях клиентов. Я хочу определить 100 лучших потенциальных клиентов среди этих клиентов.
Data Science
Вопрос или проблема У меня есть большой словарь “матриц парного сходства”, который будет выглядеть следующим образом: similarity['group1']: array([[1. , 0. , 0. , 0. , 0. ], [0. , 1. , 0.09 , 0.09 , 0. ], [0. , 0.09 , 1.
Data Science
Вопрос или проблема Моя задача состоит в том, чтобы кластеризовать некоторые изображения, я решил использовать модель VGG для извлечения признаков, а затем использовать метод K-средних для кластеризации этих признаков. Но у меня вопрос: когда я использую
Data Science
Вопрос или проблема У меня есть таблица с более чем 100K строк и более 100 числовых столбцов. Вместо того чтобы использовать метод k-means для кластеризации строк вместе (и создания нового столбца category, который помечает каждую строку), я хочу кластеризовать
Data Science
Вопрос или проблема У меня есть огромное количество документов, и каждый документ имеет свой собственный портрет, где портрет имеет такую структуру (document_id, слово, вес). В основном это TFIDF. Я хочу сгруппировать эти документы в разные кластеры, скажем, 10.