Как создать классификационные деревья решений на наборе данных, содержащем как числовые, так и категориальные переменные?

Question 1

Я довольно нов в области Data Science и изучаю вещи на практике на работе. Я аналитик по мошенничеству, и моя работа заключается в том, чтобы предсказать, является ли заявление мошенническим или нет, исходя из данных.

Перед тем как переходить к большому количеству сложных моделей, мне предложили построить деревья решений на наборе данных. Набор данных, который у меня есть, содержит 1500 колонок; некоторые из них категориальные, а некоторые – числовые. У разных категориальных переменных разные уровни; некоторые бинарные, а некоторые имеют более 100 уровней.

Я столкнулся с тем, что scikit-learn может работать только тогда, когда весь набор данных состоит из числовых переменных (дискретных или непрерывных). И частый обход этого ограничения, который я вижу, касается one-hot кодирования, как здесь – что, на мой взгляд, не является прагматичным в моем случае из-за огромного количества колонок и уровней.

Я попросил своих руководителей дать мне несколько недель, чтобы понять большую часть данных, чтобы ограничить свои переменные и, возможно, выполнить one-hot кодирование, но это не вызвало у них одобрения.

У кого-нибудь есть опыт построения классификационных деревьев решений на наборе данных со смешанными типами данных с большим количеством переменных?

Спасибо.

Question 2

1.) Перед кодированием ваших категориальных признаков вам, возможно, стоит провести некоторую обработку признаков, чтобы уменьшить количество категориальных признаков. Как только вы убедитесь, что не можете сократить их дальше без потери ценной информации, только тогда кодируйте их, используя one hot encoder или другую технику.

2.) Вы можете использовать функцию drop One Hot Encoder, чтобы уменьшить закодированные колонки. Например, признак gender имеет 2 измерения: male и female. Когда вы их кодируете, вы получите gender_male и gender_female. Если вы используете функцию drop во время кодирования, одно из измерений будет удалено, так как модели достаточно одного измерения для признака gender. Это дополнительно уменьшит размерность вашей модели.

3.) Еще одно, что вы можете сделать, это для каждого признака выбрать 3-4 самых частых значения, удалить остальные, а затем закодировать их. Как вы упомянули, у вас есть некоторые признаки, которые имеют более 100 значений. Вы можете выбрать 10-20 самых частых значений для этого признака, удалить остальные, а затем выполнить one hot кодирование. Это уменьшит ваши размеры на 80% для этого переменного признака.

4.) Вы можете ознакомиться с PCA, который используется для целей уменьшения размерности. У меня недостаточно знаний об этом.

Кроме того, вам придется смириться с тем, что ваша модель будет иметь высокую размерность (проклятие размерности!). Это преследует каждого Data Scientist.

Question 3

То, что вы упомянули, правда, для 99% оценщиков Scikit-learn данные X должны быть числовыми (я думаю, только HistGradientBoosting работает без числовых категориальных данных). Поэтому при работе с смешанными типами данных в моделировании единственным ответом всегда являются Pipelines + ColumnTransformers.

Попробуйте что-то вроде этого, и это сработает независимо от типа данных, который у вас есть:

# Вам может понадобиться изменить шаги предобработки как для числовых, так и для категориальных признаков

from sklearn.tree import DecisionTreeClassifier
from sklearn.pipeline import Pipeline
from sklearn.compose import make_column_transformer, make_column_selector as selector
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer


cont_prepro = Pipeline([("imputer",SimpleImputer(strategy = "median")),("scaler",StandarScaler())])

cat_prepro = Pipeline([("imputer",SimpleImputer(strategy = "most_frequent")),("encoder",OneHotEncoder(handle_unknown = "ignore"))])

preprocessing = make_column_transformer((cont_prepro,selector(dtype_exclude = "object")),(cat_prepro,selector(dtype_include = "object"))

pipe = Pipeline([("preprocessing",preprocessing),("model", DecisionTreeClassifier())])

pipe.fit(X_train, y_train)

Если размерность вашей входной матрицы вызывает беспокойство, вы даже можете включить селектор признаков внутри пайплайна, как:

# настройте параметры kbest
from feature_selection import SelectKBest

pipe = Pipeline([("preprocessing",preprocessing),("selector",SelectKBest()),
("model", DecisionTreeClassifier())])

Будьте осторожны, если хотите использовать PCA, вы должны использовать это только для числовых признаков, а не для категориальных.

Как создать классификационные деревья решений на наборе данных, содержащем как числовые, так и категориальные переменные?

Вопрос или проблема

Ответ или решение

Шаг 1: Исследование и подготовка данных

Характеристики категориальных переменных

Шаг 2: Применение предварительной обработки данных

Шаг 3: Уменьшение размерности

Шаг 4: Оценка и оптимизация модели

Заключение