unsupervised-learning
Data Science
Вопрос или проблема Я использую метод несупервизированного распознавания шаблонов для создания торговой стратегии. Я использую результаты совпадения шаблонов, чтобы решить, стоит ли входить в сделку. Для выбора лучших параметров шаблонов я запускаю несколько
Data Science
Вопрос или проблема Дан тензор третьего ранга с размерами $x,y,z$. Где: $x$: количество графов (количество выборок) $y$: количество узлов/векторов/признаков (скажем, $5$: $a, b, c, d,$ и $e$) $z$: размерность вложения (например, $2$ для декартовой плоскости
Data Science
Вопрос или проблема Я хочу кластеризовать набор данных без предварительного знания о правильном количестве кластеров. Для разных алгоритмов (например, k-means, GMM и т.д.) я могу перебирать различные значения и пытаться найти лучшее решение для любого
Data Science
Вопрос или проблема Правка: в соответствии с комментарием от @anony-mousse, я изменяю вопрос, чтобы искать общий подход кластеризации, который соответствует этому критерию (минимальный вес на кластер). Мне нужно использовать метод кластеризации на наборе
Data Science
Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.
Data Science
Вопрос или проблема У меня есть большой набор данных (сотни миллионов записей, объемом в десятки гигабайт), и я хотел бы использовать LOF для задачи обнаружения аномалий (исследую разные методы для академических целей), обучаясь на этом наборе данных
Data Science
Вопрос или проблема Как бы вы подошли к ситуации, когда необходимо количественно определить абстрактное понятие, такое как «клиентский опыт», не имея никаких размеченных данных? То есть у вас есть множество переменных, о которых вы более или менее знаете
Data Science
Вопрос или проблема Как реализовать STS (Семантическое Текстовое Сходство) на неразмеченном наборе данных? Столбец набора данных содержит Unique_id, text1 (содержит абзац) и text2 (содержит абзац). Пример: Представление столбца: Unique_id | Text1 | Text2
Data Science
Вопрос или проблема Я провожу кластеризацию по одномерному набору данных и мне нужен способ автоматически определить оптимальное количество кластеров из $k \in \{2, 3, 4, 5, 6\}$. Количество наблюдений для кластеризации невелико (обычно около 10-13).
Data Science
Вопрос или проблема У меня есть большой набор данных с переменной y, которая отчасти зависит от переменных x1 и x2. Все переменные шумные, и y также зависит от других параметров, не зафиксированных в наборе данных. Я хотел бы обнаружить, когда y принимает
Data Science
Вопрос или проблема Недавно я занимаюсь обнаружением аномалий, одним из методов является использование модели АЕ для изучения паттерна нормальных образцов. Определите его как аномальный образец, если он не соответствует паттерну нормальных образцов.
Data Science
Вопрос или проблема Привет, я занимаюсь обнаружением аномалий с помощью автоэнкодеров. Я обучил модель, используя ‘ненаучные’ значения. Теперь, когда я даю аномальные точки в качестве тестовых данных. Какой должен быть порог ошибки реконструкции
Data Science
Вопрос или проблема Я провожу обширный анализ сегментации клиентов и на данный момент реализовал модели гауссовских смесей, алгоритм K-средних и иерархическую кластеризацию. В большинстве случаев алгоритмы согласны по структуре кластеров и количеству (7-8).
Data Science
Вопрос или проблема Я использую автоэнкодер для обнаружения аномалий. У меня нет никаких меток, поэтому это неконтролируемое обучение. Если у меня есть категории, я обычно применяю one hot кодирование перед передачей данных в модель.
Data Science
Вопрос или проблема У меня есть набор данных, который содержит демографические данные для списка новых клиентов. В данных отсутствует информация о транзакциях клиентов. Я хочу определить 100 лучших потенциальных клиентов среди этих клиентов.
Data Science
Вопрос или проблема У меня есть большой словарь “матриц парного сходства”, который будет выглядеть следующим образом: similarity['group1']: array([[1. , 0. , 0. , 0. , 0. ], [0. , 1. , 0.09 , 0.09 , 0. ], [0. , 0.09 , 1.
Data Science
Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает
Data Science
Вопрос или проблема Я хотел бы получить несколько предложений о возможных направлениях, которые имели бы смысл в следующем контексте. В списке из 5000 клиентов были определены 3 оптимальных кластера с использованием Kmeans. Модель данных имеет 30 признаков
Data Science
Вопрос или проблема Я новичок в обучении без учителя. Я работаю с данными сегментации клиентов (без меток). Я сделал K-Means и также вычислил силуэтный коэффициент для модели. Теперь я хочу изучить, хороша ли модель или нет (сходство или стабильность
Data Science
Вопрос или проблема В настоящее время я изучаю, как объединить данные с иерархическими зависимостями. Пример проблемы, которую я хочу кластеризовать: мы хотели бы сгруппировать города, чтобы выявить сходные характеристики по отношению к жителям.