Исправить первые два уровня дерева решений?

Question 1

Я пытаюсь построить регрессионное дерево с 70 атрибутами, где бизнес-команда хочет зафиксировать первые два уровня, а именно страна и тип продукта. Для достижения этой цели у меня есть два предложения:

Построить отдельное дерево для каждой комбинации страна и тип продукта и использовать подмножества данных соответственно, передавая их в соответствующее дерево для предсказания. Видел здесь в комментариях. У меня 88 уровней в стране и 3 уровня в типе продукта, так что получится 264 дерева.
Построить базовое дерево с двумя переменными, а именно страна и тип продукта, с соответствующим значением cp для генерации всех комбинаций в качестве листовых узлов (264). Построить второе дерево с остальными переменными и наложить одно дерево на другое как одно решение.

Я не думаю, что первый способ является правильным. Кроме того, я застрял на том, как наложить деревья во втором подходе, даже если это не самый правильный способ, мне было бы интересно узнать, как это сделать.

Пожалуйста, подскажите мне, как подойти к этой проблеме.

Question 2

В зависимости от того, какой алгоритм дерева вы хотите использовать, вы можете вручную построить первые два уровня дерева. Вы можете просто следовать псевдокоду, объясненному, например, здесь для дерева C4.5. Как только вы это сделаете, вы можете убрать два признака из набора данных и создать деревья для оставшейся части дерева. Если вы хотите создать объект rpart, вам потребуется взять некоторые части исходного кода, и это может быть немного сложнее. В зависимости от того, какой алгоритм дерева вы используете, вы будете иметь только бинарное разделение на обоих уровнях, так что вам нужно будет построить всего 4 отдельных дерева, а не 264. Обратите внимание, что у вас может не быть оптимального решения дерева, так как после прохождения первых двух уровней, страна и тип продукта могут все еще быть переменными, которые вызывают разделение. Но без просмотра данных невозможно сказать.

Замечание: может быть полезно объяснить бизнесу, что страна и тип продукта не являются самыми разумными переменными для размещения вверху дерева решений. Иногда лучше обучить конечных пользователей, чем заставить машинное обучение делать что-то неаккуратно. По моему опыту, конечные пользователи предпочитают иметь правильное решение, чем решение, которое работает, потому что люди имеют интуитивное чувство, что это должно быть определенным образом.

Question 3

Я думаю, что вы могли бы сделать это довольно автоматически, если вы открыты к использованию Python. Библиотека под названием auto_ml* имеет функцию, называемую категориальное ансамблирование, где вы можете явно сказать “Я хочу модель, построенную для каждого уровня этой функции”. Если вы создадите признак, который будет комбинировать страну и тип продукта, и используете это как категорию, остальное должно быть довольно просто.

*Раскрытие информации: я внес небольшие изменения в auto_ml. Это FOSS под лицензией MIT.

Исправить первые два уровня дерева решений?

Вопрос или проблема

Ответ или решение

Подход 1: Создание отдельных деревьев для каждой комбинации

Подход 2: Создание базового дерева с фиксированными уровнями

Реализация

Важно помнить