clustering
Data Science
Вопрос или проблема У меня есть набор данных с 1000 строками и 4 колонками с 3 выбросами. Я хочу добавить еще 7 выбросов, связанных с ними, для обнаружения при помощи кластеризации. Пример того, что я сделал Col1 col2 Col3 col4 Out1 a1 b1 c1 d1 Out2 a2
Data Science
Вопрос или проблема У меня есть некоторые данные телеметрии от автомобилей, которые записывают около 500 переменных (например, температура двигателя, температура выхлопа и т. д.). Я хотел бы иметь возможность классифицировать данные в соответствии с действиями
Data Science
Вопрос или проблема Как говорит заголовок, я пытаюсь провести кластеризацию на наборе черно-белых изображений. Эти изображения все 200×200 с черными точками на белом фоне Примеры изображений здесь (это не реальные фотографии из набора данных.
Data Science
Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем
Data Science
Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”
Data Science
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Вопрос или проблема У меня есть бивариантные данные, представляющие положение определенной опорной точки вдоль оси y, которая варьируется от -100 до 100 мм. Когда я строю эти данные в виде графика рассеяния, я вижу выбросы и группы неправильно определенных опорных точек.
Data Science
Вопрос или проблема У меня есть данные с двумя колонками, и обе они сильно коррелируют, например, если в колонке1 значение ABC, то колонка2 должно быть XYZ, т.е. ABC–>XYZ. Если в колонке2 будет что-то другое, это аномалия.
Data Science
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера
Компьютеры и программы
Вопрос или проблема Я развертываю кластер с резервированием на Windows Server 2012 R2 Enterprise При проверке конфигурации отчет о проверке кластера резервирования сообщает об ошибке В конфигурации системы > Проверка конфигурации Active Directory Вот
Data Science
Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.
Data Science
Вопрос или проблема Я ищу набор данных новостей с семантически дублирующимися новостными статьями. В основном все новостные статьи, которые говорят об одной и той же истории, должны быть сгруппированы. Истории могут быть сформулированы по-разному, но
Data Science
Вопрос или проблема У меня есть паровая машина, оборудованная следующими датчиками: датчик температуры в котельной датчик температуры в отопительном помещении датчик давления в котельной датчик оборотов в минуту, который измеряет обороты колеса, которое
Data Science
Вопрос или проблема У меня есть неориентированный граф, и его рёбра имеют веса. Я хочу разбить граф на клик. Я не знаю заранее количество кликов. Это цели: Основная цель: количество кликов должно быть как можно меньше. Второстепенная цель: сумма весов
Data Science
Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).
Data Science
Вопрос или проблема У меня есть N временных векторных признаков, полученных путём записи различных параметров с течением времени. Это приводит к матрице схожести размера N*N, которая содержит значения корреляции один к одному для каждого признака.
Data Science
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Вопрос или проблема У меня есть временной ряд с меткой времени и связанным событием: Время Событие 1 A 2 B 3 C T A Мне было интересно, существует ли техника/метод, чтобы выяснить, какие события чаще всего предшествуют другим в заданном временном промежутке.
Data Science
Вопрос или проблема Я пытаюсь вычислить показатель Дависа-Боулдина, чтобы сравнить различные подходы к кластеризации. У меня есть предрасчитанная матрица расстояний (которая представляет собой расстояние на основе редактирования между текстами).
Data Science
Вопрос или проблема Я пытаюсь обдумать свой процесс, прежде чем начать какое-либо реальное программирование. Однако я легко запутался. Предположим, у меня есть 100 инструментов, и я знаю их ценовые колебания каждый день в течение года.