После использования модели дерева решений на обучающем наборе данных был сгенерирован только один узел.

Question 1

Я пытаюсь построить модель дерева решений для прогнозирования исходной переменной (названной: Результаты) на основе предиктора. Действительно, я применил однократное кодирование к некоторым переменным с “>2 уровня”, чтобы немного увеличить количество предикторов Мои данные . Сначала я исследовал данные, а затем разделил их на 80/20 и запустил модель, но модель, обученная на обучающем наборе данных, завершилась только одним узлом без ветвей, как показано на рисунке ниже.

.

Изучая похожие посты, я заметил, что мои данные несбалансированы, потому что при проверке пропорции классов (переменной Результаты) большинство относилось к негативным, а не к позитивным. Есть ли предложения по созданию корректного дерева на этих данных?

Вот мой код:

Разделение данных на тестовые и обучающие (80% обучающая и 20% тестовая выборка)

set.seed(1234)
pd <- sample(2, nrow(data_hum_mod), replace = TRUE, prob = c(0.8,0.2))
data_hum_train <- data_hum_mod[pd==1,]
data_hum_test<- data_hum_mod[pd==2,]

Исследование данных после разделения

Проверка размерности данных

dim(data_hum_train); dim(data_hum_test) #убедитесь, что разделенные данные имеют сбалансированные n каждого из классов исходов (т.е. позитивные/негативные токсоплазмоз)

prop.table(table(data_hum_train$Results)) * 100
prop.table(table(data_hum_test$Results)) *100

Это дало следующие результаты:

# (Обучающие)
Негативные Позитивные 
75.75758 24.24242

# и (Тестовые)

Негативные Позитивные 
54.54545 45.45455

# Проверка на пропущенные значения
anyNA(data_hum_mod) 

#Убедитесь, что ни одна из переменных не имеет нулевой или почти нулевой дисперсии
nzv(data_hum_mod)

# Построение модели (с использованием пакета party)

install.packages('party')
library(party)
data_human_train_tree<- ctree(Results ~., data = data_hum_train,
                              controls = ctree_control(mincriterion = 0.1))
data_human_train_tree
plot(data_human_train_tree)

С помощью этого кода я получил этот рисунок.

Я получил те же результаты, используя другие пакеты, такие как C50 и rpart.

Не могли бы вы посоветовать что-нибудь по этому поводу? Я читал о подвыборке для класса большинства (здесь негативные Результаты), как это можно реализовать в R?

Question 2

Основная проблема, вероятно, в том, что вы установили mincriterion слишком высоким, так что ни одно разбиение его не превышает. Попробуйте удалить его или уменьшить значение.

Несбалансированность классов возможно, не является проблемой. Но несколько настораживает, что баланс вашего тестового набора значительно отличается от обучающего.

Кроме того, я бы предложил использовать “ординальное кодирование” (например, целыми числами 1, 2,… для любых порядковых переменных, таких как возрастные группы и образование).

После использования модели дерева решений на обучающем наборе данных был сгенерирован только один узел.

Вопрос или проблема

Ответ или решение