unsupervised-learning - ответы на вопросы - Page 2 of 3

Data Science

Кластеризация с иерархическими зависимостями данных

00

Вопрос или проблема В настоящее время я изучаю, как объединить данные с иерархическими зависимостями. Пример проблемы, которую я хочу кластеризовать: мы хотели бы сгруппировать города, чтобы выявить сходные характеристики по отношению к жителям.

Data Science

Как интерпретировать бScores Лапласа для ранжирования важности признаков в неконтролируемой кластеризации признаков?

00

Вопрос или проблема В настоящее время я работаю над ранжированием важности признаков без учителя с использованием методов кластеризации графов, сосредоточив внимание на лапласиановском счете в качестве метрики. Тем не менее, я испытываю трудности с интерпретацией

Data Science

Кластеризация картезианских координат, связанных с одной категориальной характеристикой

00

Вопрос или проблема У меня есть серия 2D координат X = {x, y}. Каждая из них связана с одной категориальной переменной W, которая может принимать 7 различных значений. Например: coord W X1 3 X2 5 X3 7 X4 3 X5 2 X6 3 X7 2 ... X2000 5 ... Я хотел бы получить все кластеры, […

Data Science

Неконтролируемый анализ настроений в R

00

Вопрос или проблема Как бы вы оценили несупервизированный сентиментальный анализ? Я читаю о том, как оценивать сентиментальный анализ, и узнаю, что во многих классификационных моделях, которые используются, у данных есть целевые/метки переменные.

Data Science

Как подойти к выбору пиков с различными формами, размерами, варьирующим уровнем шума и иногда смещающимся базовым уровнем?

00

Вопрос или проблема Я пытаюсь написать программу, которая постоянно отслеживает местоположение пика. Для этого мне нужен очень хороший алгоритм обнаружения пиков. Он должен не только определять местоположение пика, но и отсутствие его.

Data Science

Можно ли использовать результаты кластеризации на основе вероятности для обучения с учителем?

00

Вопрос или проблема Я новичок, и у меня есть вопрос. Можно ли использовать результаты кластеризации на основе вероятности для обучающего обучения? Данные производства содержат 80000 строк. Они не размечены, но есть информация о том, что уровень дефектов составляет 7,2%.

Data Science

Разница между Q-обучением и G-обучением в обучении с подкреплением?

00

Вопрос или проблема В чем разница между Q-обучением и G-обучением в обучении с подкреплением? Пожалуйста, объясните с помощью формул. Пример источника: Вместо того чтобы полагаться на полезность потребления, мы представляем G-Learner: алгоритм обучения

Data Science

В Orange Data Mining, как я могу использовать результаты кластеризации обучающего набора для тестирования и оценки тестового набора?

00

Вопрос или проблема Я проводил анализ известного набора данных ‘Adult’, доступного на UCI, с использованием Orange Data Mining. В своей диссертации Pelleg (2004; стр. 79) использует неконтролируемую кластеризацию заданного обучающего набора

Data Science

Подход машинного обучения для обнаружения ботов

00

Вопрос или проблема Я работаю над проектом, который пытается определить, являются ли пользователи ботами или нет. В настоящее время метки, которые содержит набор данных, ненадежны, но я нашел некоторые тенденции/особенности, которые хорошо подходят для

Data Science

Правильный способ найти лоренцево расстояние между двумя точками.

00

Вопрос или проблема В соответствии с этой статьей и этой статьей я пытаюсь реализовать формулу для лоренцевого расстояния между 2 точками (также известного как расстояние между 2 точками в лоренцевом пространстве). Я использую это в качестве метрики расстояния для классификатора KNN.

Data Science

Обнаружение аномалий/выбросов в реальном времени?

00

Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока

Data Science

Какой самый эффективный алгоритм неконтролируемого машинного обучения следует использовать, когда в наборе данных присутствуют выбросы?

00

Вопрос или проблема Я анализирую портфель из aproximadamente 225 акций и получил данные для каждой из них, основываясь на их “коэффициенте цена/прибыль”, “рентабельности активов” и “росте прибыли на акцию”

Data Science

Метрики качества кластеризации временных рядов

00

Вопрос или проблема Я кластеризую наборы данных временных рядов, которые не имеют меток (нет истинных значений), и хочу измерить качество кластеров. Не могли бы вы предложить методы оценки качества кластеризации, которые можно использовать для кластеризации временных рядов?

Data Science

Классификация типов переменных в списке переменных

00

Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.

Data Science

Включает ли загрязнение превращение изолированного леса в контролируемый?

00

Вопрос или проблема В необучаемом обнаружении аномалий, превращает ли включение процента загрязнения изолирующий лес в обучаемый, а не необучаемый, когда я подгоняю данные после этого? Изолирующий лес является по сути необучаемым алгоритмом.

Data Science

Word2vec для кодирования медицинских процедур при использовании изолирующих лесов

00

Вопрос или проблема Я планирую использовать Isolation Forests в R (пакет solitude) для выявления выбросов в медицинских исках в моих данных. Каждая строка в моих данных представляет собой группу лекарств, которые каждый провайдер назначал за последние 12 месяцев.

Data Science

У меня есть 32 тысячи черно-белых изображений. Хочу сделать кластеризацию на них.

00

Вопрос или проблема Как говорит заголовок, я пытаюсь провести кластеризацию на наборе черно-белых изображений. Эти изображения все 200×200 с черными точками на белом фоне Примеры изображений здесь (это не реальные фотографии из набора данных.

Data Science

Сопоставление сходства между двумя различными наборами данных (маркетинговое исследование)

00

Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем

Data Science

Тематическое моделирование для нетекстовых данных?

00

Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.

Data Science

Как удовлетворить концепцию масштабируемости с помощью алгоритмов DBSCAN и LOF

00

Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера