decision-trees
Data Science
Вопрос или проблема У меня есть набор данных с 16 признаками и 32 метками классов, который демонстрирует следующее поведение: Классификация нейронной сетью: высокая точность на обучающих данных 100%, но низкая точность на тестовом наборе 3% (почти как
Data Science
Вопрос или проблема Я пытаюсь построить регрессионное дерево с 70 атрибутами, где бизнес-команда хочет зафиксировать первые два уровня, а именно страна и тип продукта. Для достижения этой цели у меня есть два предложения: Построить отдельное дерево для
Data Science
Вопрос или проблема У меня есть список коротких строк, каждая из которых определяет город. Орфографические ошибки очень распространены. Пример ниже показывает некоторые из этих коротких строк и правильный город, которому они должны соответствовать.
Data Science
Вопрос или проблема Я пытаюсь построить модель дерева решений для прогнозирования исходной переменной (названной: Результаты) на основе предиктора. Действительно, я применил однократное кодирование к некоторым переменным с “
Data Science
Вопрос или проблема Предположим, что у нас есть n наблюдений и p предикторов, и у нас ситуация n>>p. Все предикторы бинарные. Каково максимальное количество листовых узлов, которое мы можем иметь в дереве? И каково максимальное количество внутренних узлов?
Data Science
Вопрос или проблема У меня есть модель XGBoost с следующими параметрами xgbc_final = XGBClassifier(objective="multi:softprob", num_class = 2,max_depth = 60, n_estimators = 512, reg_lambda = 0.1214, alpha = 0.9131, gamma = 0, colsample_bytree = 0.
Data Science
Вопрос или проблема Я очень запутался в том, как деревья решений выбирают признаки и пороговые значения для разбиения. Я полностью понимаю различные метрики разбиения (индекс Джини и так далее), используемые и то, как они работают.
Data Science
Вопрос или проблема Суть в том, что я хочу отделить системные ошибки от ошибок сенсоров, используя некоторый набор данных из беспроводной сенсорной сети с помощью алгоритма машинного обучения. Например, если у меня есть несколько температурных сенсоров
Data Science
Вопрос или проблема Я получил 100% точности на своем тестовом наборе, используя алгоритм дерева решений, но только 85% точности с использованием случайного леса. Есть ли что-то не так с моей моделью или дерево решений наиболее подходит для предоставленного набора данных?
Data Science
Вопрос или проблема Я новичок в методе деревьев решений. Для модели регрессии деревьев решений, она просто подстраивает кусочную ступенчатую функцию под данные? Когда и почему люди предпочитают её по сравнению с традиционной регрессией, такой как регрессия
Data Science
Вопрос или проблема Я использую случайные леса, и в моих данных существует много ситуаций, когда $X_1$ является плохим предиктором, $X_2$ является плохим предиктором, но совместное распределение может быть хорошим предиктором.
Data Science
Вопрос или проблема Я пытаюсь стратифицировать группу пациентов по возможным молекулярным подтипам рака. Я понимаю, что у всех этих пациентов есть рак, но целью является (вне зависимости от обучения) кластеризовать их на 4 возможных подтипа.