clustering
Data Science
Вопрос или проблема Я новичок, и у меня есть вопрос. Можно ли использовать результаты кластеризации на основе вероятности для обучающего обучения? Данные производства содержат 80000 строк. Они не размечены, но есть информация о том, что уровень дефектов составляет 7,2%.
Программное обеспечение
Вопрос или проблема У меня есть приложение (Postgres), в котором много строк (более миллиона), и мне нужно выполнять множество INSERT и SELECT одновременно. Я думаю создать кластер машин. Я пробовал pgpool2, но эта архитектура не то, что мне нужно.
Data Science
Вопрос или проблема У меня есть набор данных (350 тысяч данных) о сотрудниках из разных регионов за последние 10 лет. Набор данных состоит из их навыков, региона, в котором они находятся, отрасли, их текущей роли, их зарплаты в соответствующей валюте.
Data Science
Вопрос или проблема Я проводил анализ известного набора данных ‘Adult’, доступного на UCI, с использованием Orange Data Mining. В своей диссертации Pelleg (2004; стр. 79) использует неконтролируемую кластеризацию заданного обучающего набора
Data Science
Вопрос или проблема Извините за любые неточности из-за начальной стадии в этой области. Я пытаюсь научиться, как вернуть набор данных с тремя классами для кластеризации с помощью TensorFlow. На данный момент я много читал и экспериментировал с несколькими
Data Science
Вопрос или проблема У меня есть последовательность повторяющихся событий, которые я хотел бы сгруппировать для представления различных операционных активностей основного процесса. Эти события могут происходить в определенном порядке или нет.
Data Science
Вопрос или проблема Я создал свою собственную функцию связывания для SciPy и хочу добавить эвристику. Я кластеризую последовательности json, и, например, если один кластер достаточно велик (скажем, 20 json), а другой меньше (скажем, 2 json), я бы предпочел
Data Science
Вопрос или проблема Я собрал большое количество качественных данных и теперь хочу их сгруппировать, чтобы понять их. Для этого я использую Orange от Biolab. В моих данных конкретные значения могут одновременно встречаться в данной характеристике или не встречаться.
Data Science
Вопрос или проблема Я создаю открытый фреймворк для обработки изображений. Одна из моих демонстрационных программ берет каталог фотографий, извлекает лица, группирует векторы лиц и создает HTML-галерею, показывающую каждого человека в куче.
Data Science
Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока
Data Science
Вопрос или проблема Я работаю над проектом, цель которого состоит в кластеризации участников опроса в зависимости от их ответов. Набор данных состоит из 63 вопросов, некоторые из которых номинальные, а некоторые – порядковые.
Data Science
Вопрос или проблема Я кластеризую наборы данных временных рядов, которые не имеют меток (нет истинных значений), и хочу измерить качество кластеров. Не могли бы вы предложить методы оценки качества кластеризации, которые можно использовать для кластеризации временных рядов?
Data Science
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Вопрос или проблема У меня есть набор данных с 1000 строками и 4 колонками с 3 выбросами. Я хочу добавить еще 7 выбросов, связанных с ними, для обнаружения при помощи кластеризации. Пример того, что я сделал Col1 col2 Col3 col4 Out1 a1 b1 c1 d1 Out2 a2
Data Science
Вопрос или проблема У меня есть некоторые данные телеметрии от автомобилей, которые записывают около 500 переменных (например, температура двигателя, температура выхлопа и т. д.). Я хотел бы иметь возможность классифицировать данные в соответствии с действиями
Data Science
Вопрос или проблема Как говорит заголовок, я пытаюсь провести кластеризацию на наборе черно-белых изображений. Эти изображения все 200×200 с черными точками на белом фоне Примеры изображений здесь (это не реальные фотографии из набора данных.
Data Science
Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем
Data Science
Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”
Data Science
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Вопрос или проблема У меня есть бивариантные данные, представляющие положение определенной опорной точки вдоль оси y, которая варьируется от -100 до 100 мм. Когда я строю эти данные в виде графика рассеяния, я вижу выбросы и группы неправильно определенных опорных точек.