Вопрос или проблема
В классификаторе на основе дерева решений большинство алгоритмов используют Прибыль информации в качестве критерия разбиения. Мы выбираем признак с максимальной прибылью информации для разбиения.
Я думаю, что использование точности вместо прибыли информации является более простым подходом. Существуют ли сценарии, когда точность не работает, а прибыль информации работает?
Может кто-то объяснить, каковы преимущества использования прибыли информации по сравнению с точностью в качестве критерия разбиения?
Деревья решений обычно подвержены переобучению, и точность не обобщается хорошо на невидимые данные. Одно из преимуществ прибыли информации состоит в том, что — из-за фактора $-p*log(p)$ в определении энтропии — листья с небольшим количеством экземпляров имеют меньшее значение ($lim_{p \rightarrow 0^{+} } p*log(p) = 0$) и это способствует делению данных на более крупные, но однородные группы. Этот подход обычно более устойчив и также выбирает наиболее значимые признаки ближе к корню дерева.
ИЗМЕНЕНИЕ: Точность обычно проблематична с несбалансированными данными. Рассмотрим этот пример:
Погода Ветер Результат
Солнечно Слабый ДА
Солнечно Слабый ДА
Дождливо Слабый ДА
Облачно Средний ДА
Дождливо Средний НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Дождливо Сильный НЕТ
Погода и ветер оба дают только одну неправильную метку, поэтому имеют одинаковую точность 16/17. Однако, учитывая эти данные, мы предположим, что слабый ветер (75% ДА) более предсказуем для положительного результата, чем солнечная погода (50% ДА). То есть, ветер больше учит нас о обоих результатах. Поскольку данных для положительных результатов мало, мы отдаем предпочтение ветру, потому что ветер более предсказуем на меньшем наборе меток, который мы надеемся даст нам правило, более устойчивое к новым данным.
Энтропия результата составляет $ -4/17*log_2(4/17)-14/17*log_2(14/17)) =0.72$. Энтропия для погоды и результата составляет $14/17*(-1/14*log_2(1/14)-13/14*log_2(13/14)) = 0.31$, что приводит к прибыли информации в $0.41$. Точно так же ветер дает более высокую прибыль информации в $0.6$.
Я считаю, что этот вопрос обсуждается в «Элементах статистического обучения» (https://hastie.su.domains/ElemStatLearn/printings/ESLII_print12_toc.pdf.download.html) на странице 360 (возможно, немного отличается в зависимости от издания):
“Мы классифицируем наблюдения в узле $m$ в класс $k(m) = \arg\max_k
> \hat{p}_{mk}$, класс большинства в узле $m$. Разные меры
$Q_m(T)$ нечистоты узла включают следующие:
Ошибка классификации:
$1 – \hat{p}_{mk(m)} = \frac{1}{N_m} \sum_{i \in R_m} \mathbb{I}(y_i
> \neq k(m)).$Индекс Джини: $ \sum_{k \neq k’} \hat{p}_{mk} \hat{p}_{mk’} = \sum_{k=1}^K \hat{p}_{mk} (1 – \hat{p}_{mk}). $
Кросс-энтропия или девиант: $ -\sum_{k=1}^K \hat{p}_{mk} \log \hat{p}_{mk}. $
Для двух классов, если $p$ — это доля во втором классе, эти
три меры составляют $1 – \max(p, 1 – p)$, $2p(1-p)$ и $-p\log p –
> (1-p)\log(1-p)$, соответственно. Они показаны на рисунке 9.3. Все три
сходны, но кросс-энтропия и индекс Джини являются дифференцируемыми,
и, следовательно, более подходящими для численной оптимизации.Сравнивая уравнения (9.13) и (9.15), мы видим, что нам нужно взвесить меры
нечистоты узла на количество $N_{mL}$ и $N_{mR}$ наблюдений в двух дочерних узлах, созданных путем разбиения узла $m$.Кроме того, кросс-энтропия и индекс Джини более чувствительны к
изменениям в вероятностях узла, чем уровень ошибки классификации. Например, в задаче с двумя классами с 400 наблюдениями в каждом классе
(обозначенными как $(400, 400)$), предположим, что одно разделение создает узлы $(300,
> 100)$ и $(100, 300)$, в то время как другое разделение создает узлы $(200, 400)$
и $(200, 0)$. Оба разделения дают уровень ошибки классификации 0.25,
но второе разделение производит чистый узел и, вероятно, предпочтительнее.
Индекс Джини и кросс-энтропия ниже для второго разбиения.
По этой причине следует использовать либо индекс Джини, либо кросс-энтропию
при построении дерева. Для управления обрезкой по затратам и сложности можно использовать любую из
трех мер, но обычно это — уровень ошибки классификации.Индекс Джини можно интерпретировать двумя интересными способами. Вместо того чтобы
классифицировать наблюдения по классу большинства в узле, мы могли бы
классифицировать их по классу $k$ с вероятностью $\hat{p}_{mk}$. Тогда уровень ошибки обучения этого правила в узле составляет $\sum_{k \neq k’}
> \hat{p}_{mk} \hat{p}_{mk’}$ — индекс Джини. Аналогично, если мы кодируем каждое
наблюдение как 1 для класса $k$ и 0 в противном случае, дисперсия по
узлу этой 0-1 реакции составляет $\hat{p}_{mk}(1 – \hat{p}_{mk})$. При суммировании
по классам $k$ снова получается индекс Джини.”
Ответ или решение
Вопрос о том, почему в алгоритмах построения деревьев решений предпочтение отдается критерию информации (информационному приросту) вместо точности, имеет обширные объяснения и задействует несколько ключевых аспектов. Рассмотрим основные преимущества использования информационного прироста как критерия разбиения.
1. Понимание критериев разбиения
Точность — это простая метрика, которая показывает долю правильно классифицированных примеров. Однако высокий уровень точности может вводить в заблуждение, особенно в сценариях с несбалансированными данными, когда одна из классических метрик перевешивает другую. Например, в случае расстановки классов, где один класс значительно преобладает, простое использование точности может привести к ситуации, когда модель кажется "хорошей", несмотря на низкую способность обобщения для менее представленных классов.
Информационный прирост (Information Gain), наоборот, оценивает, насколько хорошо конкретная особенность помогает уменьшить неопределенность (энтропию) о целевом классе. Это позволяет акцентироваться на тех признаках, которые наилучшим образом разделяют данные на различные классы, обеспечивая более качественные и надежные разбиения.
2. Проблема с неравномерно распределенными классами
Безбалансированные данные — типичная проблема в практике анализа данных. Для примера, рассмотрим гипотетический набор данных, в котором 16 из 17 меток относятся к одному классу. Как показал представленный пример, и «Погода», и «Ветер» могут показать одинаковую точность, но разбиение по ветру будет более информативным и позволит лучше обобщать информацию на новых данных.
Информационный прирост позволяет лучше выделять ключевые особенности. Именно эта функция помогает выявить наиболее предсказывающие признаки, что особенно важно при наличии небольшого числа экземпляров для менее защищенного класса.
3. Устойчивость к переобучению
Деревья решений известны своей предрасположенностью к переобучению из-за их способности очень хорошо подстраиваться под обучающие данные. Использование информационного прироста помогает в профилактике переобучения, так как он учитывает "вес" разбивки и той порции данных, которая включена в конечные узлы дерева. На практике это означает, что разбиения по менее значимым признакам (то есть тем, которые приводят к узлам с малым числом примеров) получают меньшую оценку, что приводит к более стабильным и менее подверженным переобучению деревьям.
4. Математическая основа
Информационный прирост рассчитывается на основе энтропии, что внедряет в модель такие меры риска, как аналог Gini index или кросс-энтропия. Они полезны, так как более чувствительны к изменениям в распределении классов и способствуют более глубокому анализу структур данных, чем просто оценка точности.
5. Применение в практике
В реальных сценариях, где данные могут быть искажены шумом или определенными аномалиями, точность может ввести в заблуждение. Информационный прирост обеспечивает возможность построения более обоснованных и информативных моделей, которые отражают истинные закономерности данных, а не просто следуют за количественными показателями.
Заключение
Использование информационного прироста в качестве критерия разбиения предлагает множество преимуществ по сравнению с простой точностью. Это более надежный подход, который позволяет моделям лучше справляться с реальными сложностями, такими как неравномерность классов и риск переобучения. В итоге, выбор между этими двумя критериям должен основываться на понимании свойств данных и целей модели.