clustering
Data Science
Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”
Data Science
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Вопрос или проблема У меня есть бивариантные данные, представляющие положение определенной опорной точки вдоль оси y, которая варьируется от -100 до 100 мм. Когда я строю эти данные в виде графика рассеяния, я вижу выбросы и группы неправильно определенных опорных точек.
Data Science
Вопрос или проблема У меня есть данные с двумя колонками, и обе они сильно коррелируют, например, если в колонке1 значение ABC, то колонка2 должно быть XYZ, т.е. ABC–>XYZ. Если в колонке2 будет что-то другое, это аномалия.
Data Science
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера
Компьютеры и программы
Вопрос или проблема Я развертываю кластер с резервированием на Windows Server 2012 R2 Enterprise При проверке конфигурации отчет о проверке кластера резервирования сообщает об ошибке В конфигурации системы > Проверка конфигурации Active Directory Вот
Data Science
Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.
Data Science
Вопрос или проблема Я ищу набор данных новостей с семантически дублирующимися новостными статьями. В основном все новостные статьи, которые говорят об одной и той же истории, должны быть сгруппированы. Истории могут быть сформулированы по-разному, но
Data Science
Вопрос или проблема У меня есть паровая машина, оборудованная следующими датчиками: датчик температуры в котельной датчик температуры в отопительном помещении датчик давления в котельной датчик оборотов в минуту, который измеряет обороты колеса, которое
Data Science
Вопрос или проблема У меня есть неориентированный граф, и его рёбра имеют веса. Я хочу разбить граф на клик. Я не знаю заранее количество кликов. Это цели: Основная цель: количество кликов должно быть как можно меньше. Второстепенная цель: сумма весов
Data Science
Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).
Data Science
Вопрос или проблема У меня есть N временных векторных признаков, полученных путём записи различных параметров с течением времени. Это приводит к матрице схожести размера N*N, которая содержит значения корреляции один к одному для каждого признака.
Data Science
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Вопрос или проблема У меня есть временной ряд с меткой времени и связанным событием: Время Событие 1 A 2 B 3 C T A Мне было интересно, существует ли техника/метод, чтобы выяснить, какие события чаще всего предшествуют другим в заданном временном промежутке.
Data Science
Вопрос или проблема Я пытаюсь вычислить показатель Дависа-Боулдина, чтобы сравнить различные подходы к кластеризации. У меня есть предрасчитанная матрица расстояний (которая представляет собой расстояние на основе редактирования между текстами).
Data Science
Вопрос или проблема Я пытаюсь обдумать свой процесс, прежде чем начать какое-либо реальное программирование. Однако я легко запутался. Предположим, у меня есть 100 инструментов, и я знаю их ценовые колебания каждый день в течение года.
Data Science
Вопрос или проблема Я пытаюсь найти кластеры в некоторых данных с высоким уровнем шума (см. график ниже, данные здесь). Я пробовал использовать DBSCAN, который в некоторой степени сработал, но требовал значительной ручной настройки входных параметров
Data Science
Вопрос или проблема У меня есть вопрос относительно группировки схожих слов, например, у меня есть список слов, приведенный ниже: искусственныйинтеллект Искусственный Интеллект ИИ Машинное Обучение МО Аналитика Данных Данные и Аналитика Я хочу сгруппировать
Data Science
Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.
Data Science
Вопрос или проблема Я вижу, что авторы этой статьи измеряют F1 и NMI для оценки качества кластеризации. Однако я не понимаю алгоритм, как именно они это измеряют. Смотрите раздел Оценка. Хотя я посмотрел на код, я не уверен в самом алгоритме.