clustering - ответы на вопросы - Page 6 of 8

Data Science

Какую предобученную модель выбрать для генерации векторов из названий магазинов, написанных на английском языке?

00

Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”

Data Science

Тематическое моделирование для нетекстовых данных?

00

Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.

Data Science

Обнаружить крупнейший связанный компонент на散点ном графике (на двумерных данных)

00

Вопрос или проблема У меня есть бивариантные данные, представляющие положение определенной опорной точки вдоль оси y, которая варьируется от -100 до 100 мм. Когда я строю эти данные в виде графика рассеяния, я вижу выбросы и группы неправильно определенных опорных точек.

Data Science

Обнаружение аномалий с использованием кластеризации высококоррелированных категориальных данных.

00

Вопрос или проблема У меня есть данные с двумя колонками, и обе они сильно коррелируют, например, если в колонке1 значение ABC, то колонка2 должно быть XYZ, т.е. ABC–>XYZ. Если в колонке2 будет что-то другое, это аномалия.

Data Science

Как удовлетворить концепцию масштабируемости с помощью алгоритмов DBSCAN и LOF

00

Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера

Компьютеры и программы

Отчет о проверке кластера резервирования с ошибкой: Проверьте конфигурацию Active Directory

00

Вопрос или проблема Я развертываю кластер с резервированием на Windows Server 2012 R2 Enterprise При проверке конфигурации отчет о проверке кластера резервирования сообщает об ошибке В конфигурации системы > Проверка конфигурации Active Directory Вот

Data Science

Реализация K-модов в pyspark

00

Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.

Data Science

Новости о дублирующем наборе данных

00

Вопрос или проблема Я ищу набор данных новостей с семантически дублирующимися новостными статьями. В основном все новостные статьи, которые говорят об одной и той же истории, должны быть сгруппированы. Истории могут быть сформулированы по-разному, но

Data Science

Сенсорное слияние: Генерация виртуального датчика на основе анализа данных с датчиков.

00

Вопрос или проблема У меня есть паровая машина, оборудованная следующими датчиками: датчик температуры в котельной датчик температуры в отопительном помещении датчик давления в котельной датчик оборотов в минуту, который измеряет обороты колеса, которое

Data Science

Кластеризация для неориентированного взвешенного графа

00

Вопрос или проблема У меня есть неориентированный граф, и его рёбра имеют веса. Я хочу разбить граф на клик. Я не знаю заранее количество кликов. Это цели: Основная цель: количество кликов должно быть как можно меньше. Второстепенная цель: сумма весов

Data Science

Значимость признаков в алгоритме PCA + k-means

00

Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).

Data Science

Примите любое предложение по созданию тренировочных данных из корреляционной матрицы, чтобы найти исключение и определить разницу в вариации.

00

Вопрос или проблема У меня есть N временных векторных признаков, полученных путём записи различных параметров с течением времени. Это приводит к матрице схожести размера N*N, которая содержит значения корреляции один к одному для каждого признака.

Data Science

Выбор количества хешей для мин-генерации? Работа с очень разреженными данными и желание получить больше коллизий.

00

Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/

Data Science

Обнаружить временной паттерн в последовательности событий

00

Вопрос или проблема У меня есть временной ряд с меткой времени и связанным событием: Время Событие 1 A 2 B 3 C T A Мне было интересно, существует ли техника/метод, чтобы выяснить, какие события чаще всего предшествуют другим в заданном временном промежутке.

Data Science

Можно ли вычислить оценку Дэвиса-Боулдина на основе заранее вычисленной матрицы расстояний с использованием sklearn?

00

Вопрос или проблема Я пытаюсь вычислить показатель Дависа-Боулдина, чтобы сравнить различные подходы к кластеризации. У меня есть предрасчитанная матрица расстояний (которая представляет собой расстояние на основе редактирования между текстами).

Data Science

сбивающий с толку относительно кластеризации k-means для корреляции данных

00

Вопрос или проблема Я пытаюсь обдумать свой процесс, прежде чем начать какое-либо реальное программирование. Однако я легко запутался. Предположим, у меня есть 100 инструментов, и я знаю их ценовые колебания каждый день в течение года.

Data Science

Ищем алгоритм кластеризации для сильно зашумленных данных.

00

Вопрос или проблема Я пытаюсь найти кластеры в некоторых данных с высоким уровнем шума (см. график ниже, данные здесь). Я пробовал использовать DBSCAN, который в некоторой степени сработал, но требовал значительной ручной настройки входных параметров

Data Science

Группировка/кластеризация похожих слов на Python

00

Вопрос или проблема У меня есть вопрос относительно группировки схожих слов, например, у меня есть список слов, приведенный ниже: искусственныйинтеллект Искусственный Интеллект ИИ Машинное Обучение МО Аналитика Данных Данные и Аналитика Я хочу сгруппировать

Data Science

Как я могу уменьшить количество измерений, используя алгоритм кластеризации в смешанном наборе данных?

00

Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.

Data Science

Как измерить F1-меру и NMI для задачи кластеризации?

00

Вопрос или проблема Я вижу, что авторы этой статьи измеряют F1 и NMI для оценки качества кластеризации. Однако я не понимаю алгоритм, как именно они это измеряют. Смотрите раздел Оценка. Хотя я посмотрел на код, я не уверен в самом алгоритме.