Data Science
Можно ли использовать результаты кластеризации на основе вероятности для обучения с учителем?
00
Вопрос или проблема Я новичок, и у меня есть вопрос. Можно ли использовать результаты кластеризации на основе вероятности для обучающего обучения? Данные производства содержат 80000 строк. Они не размечены, но есть информация о том, что уровень дефектов составляет 7,2%.
Data Science
Разница между Q-обучением и G-обучением в обучении с подкреплением?
00
Вопрос или проблема В чем разница между Q-обучением и G-обучением в обучении с подкреплением? Пожалуйста, объясните с помощью формул. Пример источника: Вместо того чтобы полагаться на полезность потребления, мы представляем G-Learner: алгоритм обучения
Data Science
В Orange Data Mining, как я могу использовать результаты кластеризации обучающего набора для тестирования и оценки тестового набора?
00
Вопрос или проблема Я проводил анализ известного набора данных ‘Adult’, доступного на UCI, с использованием Orange Data Mining. В своей диссертации Pelleg (2004; стр. 79) использует неконтролируемую кластеризацию заданного обучающего набора
Data Science
Подход машинного обучения для обнаружения ботов
00
Вопрос или проблема Я работаю над проектом, который пытается определить, являются ли пользователи ботами или нет. В настоящее время метки, которые содержит набор данных, ненадежны, но я нашел некоторые тенденции/особенности, которые хорошо подходят для
Data Science
Правильный способ найти лоренцево расстояние между двумя точками.
00
Вопрос или проблема В соответствии с этой статьей и этой статьей я пытаюсь реализовать формулу для лоренцевого расстояния между 2 точками (также известного как расстояние между 2 точками в лоренцевом пространстве). Я использую это в качестве метрики расстояния для классификатора KNN.
Data Science
Обнаружение аномалий/выбросов в реальном времени?
00
Вопрос или проблема Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю. Цель заключается в следующем: обнаружить, когда аккаунт игрока
Data Science
Какой самый эффективный алгоритм неконтролируемого машинного обучения следует использовать, когда в наборе данных присутствуют выбросы?
00
Вопрос или проблема Я анализирую портфель из aproximadamente 225 акций и получил данные для каждой из них, основываясь на их “коэффициенте цена/прибыль”, “рентабельности активов” и “росте прибыли на акцию”
Data Science
Метрики качества кластеризации временных рядов
00
Вопрос или проблема Я кластеризую наборы данных временных рядов, которые не имеют меток (нет истинных значений), и хочу измерить качество кластеров. Не могли бы вы предложить методы оценки качества кластеризации, которые можно использовать для кластеризации временных рядов?
Data Science
Классификация типов переменных в списке переменных
00
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Включает ли загрязнение превращение изолированного леса в контролируемый?
00
Вопрос или проблема В необучаемом обнаружении аномалий, превращает ли включение процента загрязнения изолирующий лес в обучаемый, а не необучаемый, когда я подгоняю данные после этого? Изолирующий лес является по сути необучаемым алгоритмом.
Data Science
Word2vec для кодирования медицинских процедур при использовании изолирующих лесов
00
Вопрос или проблема Я планирую использовать Isolation Forests в R (пакет solitude) для выявления выбросов в медицинских исках в моих данных. Каждая строка в моих данных представляет собой группу лекарств, которые каждый провайдер назначал за последние 12 месяцев.
Data Science
У меня есть 32 тысячи черно-белых изображений. Хочу сделать кластеризацию на них.
00
Вопрос или проблема Как говорит заголовок, я пытаюсь провести кластеризацию на наборе черно-белых изображений. Эти изображения все 200×200 с черными точками на белом фоне Примеры изображений здесь (это не реальные фотографии из набора данных.
Data Science
Сопоставление сходства между двумя различными наборами данных (маркетинговое исследование)
00
Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем
Data Science
Тематическое моделирование для нетекстовых данных?
00
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Как удовлетворить концепцию масштабируемости с помощью алгоритмов DBSCAN и LOF
00
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера
Data Science
Временные ряды – Обнаружение аномалий
00
Вопрос или проблема У меня есть временные ряды с оповещениями (каждую минуту), в которых мне нужно найти аномалии. Я ищу библиотеку, которая может выполнять неконтролируемое обучение на этих данных и обнаруживать аномалии. Какая из библиотек Python будет лучшей для этой задачи?
Data Science
Разные методы масштабирования различных признаков приводят к ложной зависимости между ними.
01
Вопрос или проблема Мой набор данных содержит следующие две характеристики: “длительность фильма” (минуты) и “длительность телешоу” (сезоны). Если определенный пример имеет тип “фильм”, его длительность будет отображаться в характеристике “
Data Science
Обнаружить временной паттерн в последовательности событий
00
Вопрос или проблема У меня есть временной ряд с меткой времени и связанным событием: Время Событие 1 A 2 B 3 C T A Мне было интересно, существует ли техника/метод, чтобы выяснить, какие события чаще всего предшествуют другим в заданном временном промежутке.
Data Science
Реализация ограниченной машины Больцмана (RBM) в Tensorflow (TF) 2.x
00
Вопрос или проблема Я ищу реализацию ограниченной машины Больцмана (RBM) на Python, например, примененную к данным MNIST, как упоминается в «Элементах статистического обучения», гл. 17, в Tensorflow 2.x. Я знаю о коде по ссылке здесь.
Data Science
Кластеризация для разреженной матрицы данных высокой размерности
00
Вопрос или проблема У меня есть набор данных из 1000 записей с 512 разреженными признаками. Я хочу сгруппировать их. Я пытался использовать алгоритм k-means, но обнаружил, что кластеризация оказалась не очень хорошей, и я смотрел на другие методы кластеризации