Data Science
Как разбить значения цвета (категориальные – высокая кардинальность) на основные цвета?
00
Вопрос или проблема У меня есть переменная цвета с значениями для различных товаров электронной коммерции, таких как – оливковый, бирюзовый, синий, зеленый и т.д. Я хочу сгруппировать эти цвета по основным цветовым значениям. Например –
Data Science
Elasticsearch + Кластеризация
00
Вопрос или проблема В настоящее время я работаю над проектом, который основывается на кластеризации документов в неопределенное количество кластеров на основе порога схожести (в идеале с использованием косинусного расстояния между векторами tf-idf).
Data Science
Моделирование тем на длинных документах: сначала кластеризация внутри документа
00
Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.
Data Science
Кластеризация с иерархическими зависимостями данных
00
Вопрос или проблема В настоящее время я изучаю, как объединить данные с иерархическими зависимостями. Пример проблемы, которую я хочу кластеризовать: мы хотели бы сгруппировать города, чтобы выявить сходные характеристики по отношению к жителям.
Data Science
Могу ли я использовать кластеризацию после классификации для улучшения производительности моего классификатора?
00
Вопрос или проблема Предположим, у меня есть классификатор, который сегментирует мои векторные характеристики (например, представляющие соискателей) на 3 разных сегмента A, B, C, присваивая каждому соискателю оценку от 0 (хуже) до 1 (лучше) с помощью
Data Science
Как интерпретировать бScores Лапласа для ранжирования важности признаков в неконтролируемой кластеризации признаков?
00
Вопрос или проблема В настоящее время я работаю над ранжированием важности признаков без учителя с использованием методов кластеризации графов, сосредоточив внимание на лапласиановском счете в качестве метрики. Тем не менее, я испытываю трудности с интерпретацией
Data Science
Кластеризация картезианских координат, связанных с одной категориальной характеристикой
00
Вопрос или проблема У меня есть серия 2D координат X = {x, y}. Каждая из них связана с одной категориальной переменной W, которая может принимать 7 различных значений. Например: coord W X1 3 X2 5 X3 7 X4 3 X5 2 X6 3 X7 2 ... X2000 5 ... Я хотел бы получить все кластеры, […
Data Science
Можно ли использовать результаты кластеризации на основе вероятности для обучения с учителем?
00
Вопрос или проблема Я новичок, и у меня есть вопрос. Можно ли использовать результаты кластеризации на основе вероятности для обучающего обучения? Данные производства содержат 80000 строк. Они не размечены, но есть информация о том, что уровень дефектов составляет 7,2%.
Программное обеспечение
Есть ли способ разделить строки таблицы на нескольких машинах (PostgreSQL)?
00
Вопрос или проблема У меня есть приложение (Postgres), в котором много строк (более миллиона), и мне нужно выполнять множество INSERT и SELECT одновременно. Я думаю создать кластер машин. Я пробовал pgpool2, но эта архитектура не то, что мне нужно.
Data Science
Нормализация валюты для прогнозирования зарплаты
00
Вопрос или проблема У меня есть набор данных (350 тысяч данных) о сотрудниках из разных регионов за последние 10 лет. Набор данных состоит из их навыков, региона, в котором они находятся, отрасли, их текущей роли, их зарплаты в соответствующей валюте.
Data Science
В Orange Data Mining, как я могу использовать результаты кластеризации обучающего набора для тестирования и оценки тестового набора?
00
Вопрос или проблема Я проводил анализ известного набора данных ‘Adult’, доступного на UCI, с использованием Orange Data Mining. В своей диссертации Pelleg (2004; стр. 79) использует неконтролируемую кластеризацию заданного обучающего набора
Data Science
Как кластеризовать текст с использованием TensorFlow
02
Вопрос или проблема Извините за любые неточности из-за начальной стадии в этой области. Я пытаюсь научиться, как вернуть набор данных с тремя классами для кластеризации с помощью TensorFlow. На данный момент я много читал и экспериментировал с несколькими
Data Science
Сгруппировка событий в последовательности
00
Вопрос или проблема У меня есть последовательность повторяющихся событий, которые я хотел бы сгруппировать для представления различных операционных активностей основного процесса. Эти события могут происходить в определенном порядке или нет.
Data Science
Эвристики для иерархической кластеризации с пользовательской функцией связи
00
Вопрос или проблема Я создал свою собственную функцию связывания для SciPy и хочу добавить эвристику. Я кластеризую последовательности json, и, например, если один кластер достаточно велик (скажем, 20 json), а другой меньше (скажем, 2 json), я бы предпочел
Data Science
Кластеризация с множествами в качестве значений
00
Вопрос или проблема Я собрал большое количество качественных данных и теперь хочу их сгруппировать, чтобы понять их. Для этого я использую Orange от Biolab. В моих данных конкретные значения могут одновременно встречаться в данной характеристике или не встречаться.
Data Science
Алгоритм для кластеризации векторных представлений лиц по людям для неизвестного числа людей
00
Вопрос или проблема Я создаю открытый фреймворк для обработки изображений. Одна из моих демонстрационных программ берет каталог фотографий, извлекает лица, группирует векторы лиц и создает HTML-галерею, показывающую каждого человека в куче.
Data Science
Обнаружение аномалий/выбросов в реальном времени?
00
Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока
Data Science
Как предварительно обрабатывать/кодировать категориальные данные для использования в алгоритмах снижения размерности и кластеризации?
00
Вопрос или проблема Я работаю над проектом, цель которого состоит в кластеризации участников опроса в зависимости от их ответов. Набор данных состоит из 63 вопросов, некоторые из которых номинальные, а некоторые – порядковые.
Data Science
Метрики качества кластеризации временных рядов
00
Вопрос или проблема Я кластеризую наборы данных временных рядов, которые не имеют меток (нет истинных значений), и хочу измерить качество кластеров. Не могли бы вы предложить методы оценки качества кластеризации, которые можно использовать для кластеризации временных рядов?
Data Science
Классификация типов переменных в списке переменных
00
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.