Data Science
Как кластеризовать на основе данных сенсоров? – Моя первая работа в области Data Science
00
Вопрос или проблема Я на своей первой (настоящей) работе в области данных и программирования. Как все могут себе представить, это может быть довольно сложно, и я много учусь, учитывая, что я студент по специальности «Наука о данных» в университете.
Data Science
Кластеризация временных рядов для датафрейма
00
Вопрос или проблема У меня есть DataFrame с несколькими идентификаторами, у каждого из которых есть свои временные ряды. Здесь я приведу только простой пример. Я хотел бы сгруппировать их на 2 класса (в реальных данных 10 классов).
Data Science
Кластеризация смешанных типов данных – числовых, категориальных, массивов и текста.
00
Вопрос или проблема У меня есть набор данных с 4 типами столбцов данных: числовой категориальный теги текст id 1 51585 27 [A, B, C, …] “Некоторый текст бла бла бла” 2 53596 27 [B, D, E] “Другой текст…
Data Science
Иерархическая кластеризация: дендрограммы
00
Вопрос или проблема Что такое дендрограммы? Как мы их интерпретируем? Смотрев на дендрограммы, как мы можем определить количество образуемых кластеров? Дендрограммы — это деревообразные диаграммы, используемые для представления расположения кластеров
Data Science
Используйте кластеры в качестве зависимых переменных
00
Вопрос или проблема Я хотел спросить, знает ли кто-либо о типе двухэтапного анализа, где кластеры используются как зависимая переменная в прогнозных моделях? Например, предположим, что я использовал неконтролируемую модель на основе пяти категориальных
Data Science
Какой хороший индекс выбрать для определения числа кластеров, чтобы полученные кластеры были однородными?
00
Вопрос или проблема Я провожу кластеризацию по одномерному набору данных и мне нужен способ автоматически определить оптимальное количество кластеров из $k \in \{2, 3, 4, 5, 6\}$. Количество наблюдений для кластеризации невелико (обычно около 10-13).
Data Science
Является ли k-means с расстоянием Махаланобиса действительным вариантом для кластеризации?
00
Вопрос или проблема Я хочу получить больше информации о том, является ли k-means с расстоянием Махаланобиса математически/методологически корректным вариантом для наборов данных с различной дисперсией кластеров. Шаги следующие: Создайте агрегированные
Data Science
Как переобучить модель K-Modes на основе ежедневных данных?
00
Вопрос или проблема Я прочитал, что дообучение модели сильно зависит от того, чего вы пытаетесь достичь. Я понимаю, что, возможно, мне нужно дообучать свою модель ежедневно, а через некоторое время я должен обучить модель заново с нуля.
Data Science
Какие алгоритмы машинного обучения могут быть использованы для классификации траекторий?
00
Вопрос или проблема Я работаю над проектом по кластеризации воздушных объектов на основе их траекторий. Я хотел бы обучить модель на наборе данных с траекториями различных летающих объектов, чтобы позже я мог предсказать, к какому типу объекта относится
Data Science
Как определить новых потенциальных клиентов на основе профиля существующих клиентов?
00
Вопрос или проблема У меня есть фирмографические данные всех возможных клиентов. Данные включают продажи, прибыльность, капитал, размер организации, географическое расположение, отрасль и т.д. Каков лучший способ выявить новых потенциальных клиентов на основе этих данных?
Data Science
Поиск семантических дубликатов в наборе данных
00
Вопрос или проблема У меня есть одна интересная проблема, которую нужно решить прямо сейчас: У меня есть набор данных, содержащий тексты сообщений об ошибках. Каждая ошибка может быть записана совершенно по-разному. Сейчас мне нужно выяснить, есть ли
Data Science
Способы вычисления площади цветных участков на карте
00
Вопрос или проблема Предыстория Я аспирант, пытающийся улучшить свои навыки в области data science. Один из моих исследовательских проектов связан с определением размера кластеров на цветном изображении областей. Вот пример изображения, которое я использую.
Data Science
Метод выбора признаков для улучшения кластеризации?
00
Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у
Data Science
Инкрементный алгоритм кластеризации
00
Вопрос или проблема Я ищу инкрементный алгоритм кластеризации. Под инкрементным я понимаю алгоритм, который строит кластеры, начиная с начального набора данных и который способен постепенно добавлять новые элементы/наблюдения, добавляя их к существующим или новым кластерам.
Data Science
Существует ли алгоритм кластеризации, который может кластеризовать набор данных временных рядов на основе коэффициента вариации (или количества)?
00
Вопрос или проблема Я изучаю машинное обучение на основе scikit-learn и читаю его документацию. Кластеризация группирует группы на основе евклидова расстояния и фильтрует их различными способами, например, гауссовским распределением или методом смещения среднего…
Data Science
Присвоение точек подогнанным плоскостям
00
Вопрос или проблема Я работаю над проектом, связанным с подгонкой плоскостей к 3D облакам точек. Часть, отвечающая за подгонку плоскостей, работает хорошо, но я пытаюсь определить лучший способ ограничить подогнанные плоскости данными точками, к которым они подходят.
Data Science
Какие методы доступны для оценки сходства между различными алгоритмами кластеризации?
00
Вопрос или проблема Я провожу обширный анализ сегментации клиентов и на данный момент реализовал модели гауссовских смесей, алгоритм K-средних и иерархическую кластеризацию. В большинстве случаев алгоритмы согласны по структуре кластеров и количеству (7-8).
Data Science
Почему изменение числа кластеров изменяет график в K-means?
00
Вопрос или проблема Может быть, это глупый вопрос, но я не могу найти на него ответ. У меня нет идеального математического понимания kmeans, так что прошу прощения, если это так. Мне просто интересно, почему я вижу другой график, когда изменяю количество
Data Science
Как найти вертикальные кластеры в одномерных данных
00
Вопрос или проблема У меня есть остатки многомерных временных рядов, полученные с датчиков на сервере. Всплески на графиках остатка указывают на аномальное состояние сервера. Я хочу сгруппировать данные по вертикальным кластерам и получить индексы точек
Data Science
Определение потенциальных клиентов на основе их ранга и стоимости
00
Вопрос или проблема У меня есть набор данных, который содержит демографические данные для списка новых клиентов. В данных отсутствует информация о транзакциях клиентов. Я хочу определить 100 лучших потенциальных клиентов среди этих клиентов.