Data Science
Обнаружение аномалий с использованием кластеризации высококоррелированных категориальных данных.
00
Вопрос или проблема У меня есть данные с двумя колонками, и обе они сильно коррелируют, например, если в колонке1 значение ABC, то колонка2 должно быть XYZ, т.е. ABC–>XYZ. Если в колонке2 будет что-то другое, это аномалия.
Data Science
Как удовлетворить концепцию масштабируемости с помощью алгоритмов DBSCAN и LOF
00
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера
Компьютеры и программы
Отчет о проверке кластера резервирования с ошибкой: Проверьте конфигурацию Active Directory
00
Вопрос или проблема Я развертываю кластер с резервированием на Windows Server 2012 R2 Enterprise При проверке конфигурации отчет о проверке кластера резервирования сообщает об ошибке В конфигурации системы > Проверка конфигурации Active Directory Вот
Data Science
Реализация K-модов в pyspark
00
Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.
Data Science
Новости о дублирующем наборе данных
00
Вопрос или проблема Я ищу набор данных новостей с семантически дублирующимися новостными статьями. В основном все новостные статьи, которые говорят об одной и той же истории, должны быть сгруппированы. Истории могут быть сформулированы по-разному, но
Data Science
Сенсорное слияние: Генерация виртуального датчика на основе анализа данных с датчиков.
00
Вопрос или проблема У меня есть паровая машина, оборудованная следующими датчиками: датчик температуры в котельной датчик температуры в отопительном помещении датчик давления в котельной датчик оборотов в минуту, который измеряет обороты колеса, которое
Data Science
Кластеризация для неориентированного взвешенного графа
00
Вопрос или проблема У меня есть неориентированный граф, и его рёбра имеют веса. Я хочу разбить граф на клик. Я не знаю заранее количество кликов. Это цели: Основная цель: количество кликов должно быть как можно меньше. Второстепенная цель: сумма весов
Data Science
Значимость признаков в алгоритме PCA + k-means
00
Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).
Data Science
Примите любое предложение по созданию тренировочных данных из корреляционной матрицы, чтобы найти исключение и определить разницу в вариации.
00
Вопрос или проблема У меня есть N временных векторных признаков, полученных путём записи различных параметров с течением времени. Это приводит к матрице схожести размера N*N, которая содержит значения корреляции один к одному для каждого признака.
Data Science
Выбор количества хешей для мин-генерации? Работа с очень разреженными данными и желание получить больше коллизий.
00
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Обнаружить временной паттерн в последовательности событий
00
Вопрос или проблема У меня есть временной ряд с меткой времени и связанным событием: Время Событие 1 A 2 B 3 C T A Мне было интересно, существует ли техника/метод, чтобы выяснить, какие события чаще всего предшествуют другим в заданном временном промежутке.
Data Science
Можно ли вычислить оценку Дэвиса-Боулдина на основе заранее вычисленной матрицы расстояний с использованием sklearn?
00
Вопрос или проблема Я пытаюсь вычислить показатель Дависа-Боулдина, чтобы сравнить различные подходы к кластеризации. У меня есть предрасчитанная матрица расстояний (которая представляет собой расстояние на основе редактирования между текстами).
Data Science
сбивающий с толку относительно кластеризации k-means для корреляции данных
00
Вопрос или проблема Я пытаюсь обдумать свой процесс, прежде чем начать какое-либо реальное программирование. Однако я легко запутался. Предположим, у меня есть 100 инструментов, и я знаю их ценовые колебания каждый день в течение года.
Data Science
Ищем алгоритм кластеризации для сильно зашумленных данных.
00
Вопрос или проблема Я пытаюсь найти кластеры в некоторых данных с высоким уровнем шума (см. график ниже, данные здесь). Я пробовал использовать DBSCAN, который в некоторой степени сработал, но требовал значительной ручной настройки входных параметров
Data Science
Группировка/кластеризация похожих слов на Python
00
Вопрос или проблема У меня есть вопрос относительно группировки схожих слов, например, у меня есть список слов, приведенный ниже: искусственныйинтеллект Искусственный Интеллект ИИ Машинное Обучение МО Аналитика Данных Данные и Аналитика Я хочу сгруппировать
Data Science
Как я могу уменьшить количество измерений, используя алгоритм кластеризации в смешанном наборе данных?
00
Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.
Data Science
Как измерить F1-меру и NMI для задачи кластеризации?
00
Вопрос или проблема Я вижу, что авторы этой статьи измеряют F1 и NMI для оценки качества кластеризации. Однако я не понимаю алгоритм, как именно они это измеряют. Смотрите раздел Оценка. Хотя я посмотрел на код, я не уверен в самом алгоритме.
Data Science
Найдите общие свойства кластерных образцов.
00
Вопрос или проблема У меня есть набор данных, который содержит примерно 15 признаков. С помощью метода локтя я выяснил, что оптимальное количество кластеров, вероятно, равно четырем. Поэтому я применил алгоритм K-средних с четырьмя кластерами.
Data Science
Кластеризация для разреженной матрицы данных высокой размерности
00
Вопрос или проблема У меня есть набор данных из 1000 записей с 512 разреженными признаками. Я хочу сгруппировать их. Я пытался использовать алгоритм k-means, но обнаружил, что кластеризация оказалась не очень хорошей, и я смотрел на другие методы кластеризации
Data Science
Способ инициализации векторного представления предложений для несп supervised кластеризации текста, лучше чем GloVe wordvec?
00
Вопрос или проблема Для неконтролируемой кластеризации текста ключевым моментом является начальноеembedding для текста. Если мы хотим использовать deepcluster для текста, проблема для текста заключается в том, как получить начальноеembedding из глубокой модели.