Деревья решений – C4.5 против CART – наборы правил

Вопрос или проблема

Когда я читал руководство пользователя scikit-learn о деревьях решений, они упомянули, что

CART (деревья классификации и регрессии) очень похож на C4.5,
но отличается тем, что поддерживает числовые целевые переменные
(регрессию) и не вычисляет наборы правил. CART строит бинарные
деревья, используя характеристику и порог, которые дают наибольшую
информацию на каждом узле.

Я не понимаю, где мы вычисляем наборы правил для алгоритма C4.5 (и я даже не знаю, что такое наборы правил). Это в основном то же самое, что и CART, за исключением того, что он использует индекс Джини вместо перекрестной энтропии.

Кто-нибудь может объяснить, что такое наборы правил и как они используются в C4.5 подробно?

Алгоритм Дерева Решений

Независимо от того, какой алгоритм дерева решений вы используете: ID3, C4.5, CART, CHAID или Деревья регрессии (CART). Все они ищут характеристику, предлагающую наибольшую информационную выгоду. Затем они добавляют правило решения для найденной характеристики и строят другое дерево решений для подмножества данных рекурсивно, пока не достигнут решения.

C4.5 является развитием ID3, представленным тем же автором (Куинлан, 1993). Алгоритм C4.5 генерирует дерево решений для заданного набора данных, рекурсивно разделяя записи.

  • В процессе построения дерева решений мы можем работать с обучающими наборами, в которых имеются записи с неизвестными значениями атрибутов, оценивая выигрыш или коэффициент выигрыша для атрибута, учитывая только записи, где этот атрибут определен.

  • В процессе использования дерева решений мы можем классифицировать записи с неизвестными значениями атрибутов, оценивая вероятность различных возможных результатов.

Примеры посмотрите здесь

Наборы Правил

Алгоритм Дерева Решений, как и Наивный Байес, основан на условных вероятностях. В отличие от Наивного Байеса, деревья решений генерируют правила. Набор Правил или просто Правила Решений состоит из множества правил. Каждое правило содержит предикат и предсказанное значение класса, а также некоторую информацию, собранную во время обучения или тестирования о производительности правила.

Легко вывести набор правил из дерева решений: напишите правило для каждого пути в дереве решений от корня до листа. В этом правиле левая часть легко составляется из меток узлов и меток дуг.

Полученный набор правил можно упростить:

Пусть LHS будет левой частью правила. Пусть LHS получается из LHS путем исключения некоторых из его условий. Мы можем заменить LHS на LHS’ в данном правиле, если подмножества обучающего набора, которые удовлетворяют соответственно LHS и LHS’, равны.

Правило может быть устранено с использованием мета условий, таких как “если никакое другое правило не применяется”.

Ответ или решение

Теория (Theory)

Алгоритмы построения деревьев решений, такие как C4.5 и CART (Classification and Regression Trees), являются популярными методами машинного обучения для классификации и регрессии. Несмотря на их схожесть в основной методологии — разбиении данных для максимизации прироста информации — эти алгоритмы имеют важные различия. Одно из ключевых отличий заключается в том, что C4.5 может генерировать наборы правил, а CART — нет.

Что такое правила и наборы правил (Rule Sets)?

Наборы правил в контексте деревьев решений представляют собой множества логических утверждений, которые могут применяться для классификации объектов. Каждое правило соответствует пути от корня дерева до листа и характеризует определённую последовательность условий, которая приводит к предсказанию класса.

Процесс генерации набора правил из дерева решений включает создание правила для каждого пути от корня к листу. Левая часть правила образуется предложением условий, которые отвечают за разбиение, а правая часть представляет классовое значение, ассоциированное с этим листом.

Пример (Example)

Рассмотрим упрощённое дерево решений для классификации плодово-овощных категорий. Пусть дерево имеет три узла: цвет (зеленый или другой), форма (круглая или другая) и вес (более 150 граммов или меньше). Путь от корня к отдельно взятому листу может выражаться в виде правила: если цвет зеленый, форма круглая и вес более 150 граммов, то объект относится к классу «яблоко».

Применение (Application)

Использование наборов правил, полученных с помощью C4.5, позволяет упростить интерпретацию модели. Наборы правил облегчает понимание логики классификации и предоставляет возможность модифицировать или оптимизировать их для различных целей, включая генерацию более компактных и общих правил путем удаления избыточных условий.

Создание и оптимизация наборов правил помогает повысить точность модели и облегчить её интерпретацию, что особенно важно в бизнес-среде, где понимание логики и значимости решений играет критическую роль в успешной реализации решений на основе данных.

В отличие от C4.5, алгоритм CART фокусируется на создании бинарных деревьев и не предусматривает явного преобразования деревьев в наборы правил. Это упрощает некоторые вычислительные аспекты, но может усложнить интерпретацию результатов классификации.

Подводя итог, стоит отметить, что выбор между C4.5 и CART зависит от конкретных требований задачи, таких как необходимость интерпретируемости результатов и работа с числовыми целевыми переменными.

Оцените материал
Добавить комментарий

Капча загружается...