unsupervised-learning - ответы на вопросы

Data Science

Избегание переобучения в неконтролируемом машинном обучении

00

Вопрос или проблема Я использую метод несупервизированного распознавания шаблонов для создания торговой стратегии. Я использую результаты совпадения шаблонов, чтобы решить, стоит ли входить в сделку. Для выбора лучших параметров шаблонов я запускаю несколько

Data Science

Автоматический поиск зависимостей между произвольными признаками

00

Вопрос или проблема Дан тензор третьего ранга с размерами $x,y,z$. Где: $x$: количество графов (количество выборок) $y$: количество узлов/векторов/признаков (скажем, $5$: $a, b, c, d,$ и $e$) $z$: размерность вложения (например, $2$ для декартовой плоскости

Data Science

Как выбрать «лучший» алгоритм обучения без учителя для кластеризации моего конкретного набора данных?

00

Вопрос или проблема Я хочу кластеризовать набор данных без предварительного знания о правильном количестве кластеров. Для разных алгоритмов (например, k-means, GMM и т.д.) я могу перебирать различные значения и пытаться найти лучшее решение для любого

Data Science

Кластеризация с пользовательским критерием (минимальный вес кластера)

00

Вопрос или проблема Правка: в соответствии с комментарием от @anony-mousse, я изменяю вопрос, чтобы искать общий подход кластеризации, который соответствует этому критерию (минимальный вес на кластер). Мне нужно использовать метод кластеризации на наборе

Data Science

Результаты иерархического процесса Дирихле

00

Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.

Data Science

Вычисление LOF для больших данных

00

Вопрос или проблема У меня есть большой набор данных (сотни миллионов записей, объемом в десятки гигабайт), и я хотел бы использовать LOF для задачи обнаружения аномалий (исследую разные методы для академических целей), обучаясь на этом наборе данных

Data Science

Как можно количественно оценить опыт в виде оценки без разметки данных?

00

Вопрос или проблема Как бы вы подошли к ситуации, когда необходимо количественно определить абстрактное понятие, такое как «клиентский опыт», не имея никаких размеченных данных? То есть у вас есть множество переменных, о которых вы более или менее знаете

Data Science

Как можно выполнить STS (Семантическое текстовое сходство) на неразмеченном наборе данных с использованием глубокого обучения?

00

Вопрос или проблема Как реализовать STS (Семантическое Текстовое Сходство) на неразмеченном наборе данных? Столбец набора данных содержит Unique_id, text1 (содержит абзац) и text2 (содержит абзац). Пример: Представление столбца: Unique_id | Text1 | Text2

Data Science

Какой хороший индекс выбрать для определения числа кластеров, чтобы полученные кластеры были однородными?

00

Вопрос или проблема Я провожу кластеризацию по одномерному набору данных и мне нужен способ автоматически определить оптимальное количество кластеров из $k \in \{2, 3, 4, 5, 6\}$. Количество наблюдений для кластеризации невелико (обычно около 10-13).

Data Science

обнаружение аномалии в конкретной характеристике относительно других (без обучения?)

00

Вопрос или проблема У меня есть большой набор данных с переменной y, которая отчасти зависит от переменных x1 и x2. Все переменные шумные, и y также зависит от других параметров, не зафиксированных в наборе данных. Я хотел бы обнаружить, когда y принимает

Data Science

Какой тип обучения необходим для обнаружения аномалий? Обучение с учителем, полуобучение или обучение без учителя?

00

Вопрос или проблема Недавно я занимаюсь обнаружением аномалий, одним из методов является использование модели АЕ для изучения паттерна нормальных образцов. Определите его как аномальный образец, если он не соответствует паттерну нормальных образцов.

Data Science

Как установить порог ошибки восстановления для обнаружения аномалий с использованием автокодировщиков?

00

Вопрос или проблема Привет, я занимаюсь обнаружением аномалий с помощью автоэнкодеров. Я обучил модель, используя ‘ненаучные’ значения. Теперь, когда я даю аномальные точки в качестве тестовых данных. Какой должен быть порог ошибки реконструкции

Data Science

Какие методы доступны для оценки сходства между различными алгоритмами кластеризации?

00

Вопрос или проблема Я провожу обширный анализ сегментации клиентов и на данный момент реализовал модели гауссовских смесей, алгоритм K-средних и иерархическую кластеризацию. В большинстве случаев алгоритмы согласны по структуре кластеров и количеству (7-8).

Data Science

Большее значение категориальному признаку для модели автокодировщика

00

Вопрос или проблема Я использую автоэнкодер для обнаружения аномалий. У меня нет никаких меток, поэтому это неконтролируемое обучение. Если у меня есть категории, я обычно применяю one hot кодирование перед передачей данных в модель.

Data Science

Определение потенциальных клиентов на основе их ранга и стоимости

00

Вопрос или проблема У меня есть набор данных, который содержит демографические данные для списка новых клиентов. В данных отсутствует информация о транзакциях клиентов. Я хочу определить 100 лучших потенциальных клиентов среди этих клиентов.

Data Science

Как настроить / выбрать параметр предпочтения для AffinityPropagation?

00

Вопрос или проблема У меня есть большой словарь “матриц парного сходства”, который будет выглядеть следующим образом: similarity['group1']: array([[1. , 0. , 0. , 0. , 0. ], [0. , 1. , 0.09 , 0.09 , 0. ], [0. , 0.09 , 1.

Data Science

Определите самые важные документы для контролируемого обучения.

00

Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает

Data Science

Уровни после кластеризации с помощью Kmeans

00

Вопрос или проблема Я хотел бы получить несколько предложений о возможных направлениях, которые имели бы смысл в следующем контексте. В списке из 5000 клиентов были определены 3 оптимальных кластера с использованием Kmeans. Модель данных имеет 30 признаков

Data Science

Стабильность кластеров в неконтролируемом обучении машин.

00

Вопрос или проблема Я новичок в обучении без учителя. Я работаю с данными сегментации клиентов (без меток). Я сделал K-Means и также вычислил силуэтный коэффициент для модели. Теперь я хочу изучить, хороша ли модель или нет (сходство или стабильность

Data Science

Кластеризация с иерархическими зависимостями данных

00

Вопрос или проблема В настоящее время я изучаю, как объединить данные с иерархическими зависимостями. Пример проблемы, которую я хочу кластеризовать: мы хотели бы сгруппировать города, чтобы выявить сходные характеристики по отношению к жителям.