unsupervised-learning
Data Science
Вопрос или проблема В настоящее время я изучаю, как объединить данные с иерархическими зависимостями. Пример проблемы, которую я хочу кластеризовать: мы хотели бы сгруппировать города, чтобы выявить сходные характеристики по отношению к жителям.
Data Science
Вопрос или проблема В настоящее время я работаю над ранжированием важности признаков без учителя с использованием методов кластеризации графов, сосредоточив внимание на лапласиановском счете в качестве метрики. Тем не менее, я испытываю трудности с интерпретацией
Data Science
Вопрос или проблема У меня есть серия 2D координат X = {x, y}. Каждая из них связана с одной категориальной переменной W, которая может принимать 7 различных значений. Например: coord W X1 3 X2 5 X3 7 X4 3 X5 2 X6 3 X7 2 ... X2000 5 ... Я хотел бы получить все кластеры, […
Data Science
Вопрос или проблема Как бы вы оценили несупервизированный сентиментальный анализ? Я читаю о том, как оценивать сентиментальный анализ, и узнаю, что во многих классификационных моделях, которые используются, у данных есть целевые/метки переменные.
Data Science
Вопрос или проблема Я пытаюсь написать программу, которая постоянно отслеживает местоположение пика. Для этого мне нужен очень хороший алгоритм обнаружения пиков. Он должен не только определять местоположение пика, но и отсутствие его.
Data Science
Вопрос или проблема Я новичок, и у меня есть вопрос. Можно ли использовать результаты кластеризации на основе вероятности для обучающего обучения? Данные производства содержат 80000 строк. Они не размечены, но есть информация о том, что уровень дефектов составляет 7,2%.
Data Science
Вопрос или проблема В чем разница между Q-обучением и G-обучением в обучении с подкреплением? Пожалуйста, объясните с помощью формул. Пример источника: Вместо того чтобы полагаться на полезность потребления, мы представляем G-Learner: алгоритм обучения
Data Science
Вопрос или проблема Я проводил анализ известного набора данных ‘Adult’, доступного на UCI, с использованием Orange Data Mining. В своей диссертации Pelleg (2004; стр. 79) использует неконтролируемую кластеризацию заданного обучающего набора
Data Science
Вопрос или проблема Я работаю над проектом, который пытается определить, являются ли пользователи ботами или нет. В настоящее время метки, которые содержит набор данных, ненадежны, но я нашел некоторые тенденции/особенности, которые хорошо подходят для
Data Science
Вопрос или проблема В соответствии с этой статьей и этой статьей я пытаюсь реализовать формулу для лоренцевого расстояния между 2 точками (также известного как расстояние между 2 точками в лоренцевом пространстве). Я использую это в качестве метрики расстояния для классификатора KNN.
Data Science
Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока
Data Science
Вопрос или проблема Я анализирую портфель из aproximadamente 225 акций и получил данные для каждой из них, основываясь на их “коэффициенте цена/прибыль”, “рентабельности активов” и “росте прибыли на акцию”
Data Science
Вопрос или проблема Я кластеризую наборы данных временных рядов, которые не имеют меток (нет истинных значений), и хочу измерить качество кластеров. Не могли бы вы предложить методы оценки качества кластеризации, которые можно использовать для кластеризации временных рядов?
Data Science
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Вопрос или проблема В необучаемом обнаружении аномалий, превращает ли включение процента загрязнения изолирующий лес в обучаемый, а не необучаемый, когда я подгоняю данные после этого? Изолирующий лес является по сути необучаемым алгоритмом.
Data Science
Вопрос или проблема Я планирую использовать Isolation Forests в R (пакет solitude) для выявления выбросов в медицинских исках в моих данных. Каждая строка в моих данных представляет собой группу лекарств, которые каждый провайдер назначал за последние 12 месяцев.
Data Science
Вопрос или проблема Как говорит заголовок, я пытаюсь провести кластеризацию на наборе черно-белых изображений. Эти изображения все 200×200 с черными точками на белом фоне Примеры изображений здесь (это не реальные фотографии из набора данных.
Data Science
Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем
Data Science
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера