Кто написал формулу важности Джини/оценки важности признаков в sklearn?

Вопрос или проблема

Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло.

Вот формула, с которой я знаком и которую ищу в статье:

$$\frac{N_s}{N_t} * \left(i – \frac{{N_s}_r}{N_s} i_r – \frac{{N_s}_l}{N_s} i_l \right)$$

где

$N_s$ = количество образцов в данном узле

$N_t$ = общее количество образцов

$i$ = Нечистота

$*_r$ = мера правого дочернего узла

$*_l$ = мера левого дочернего узла

Если я правильно понимаю, это формула, которую также используют случайные леса sklearn в model.feature_importances_

Теги (так как у меня недостаточно репутации, чтобы создать новые): Оценка важности признаков, Важность Джини

Существует статья, которая охватывает “Происхождение индекса Джини“. Индекс Джини был подробно описан Лео Брейманом и др. в книге “Деревья классификации и регрессии” в 1984 году. Лео Брейман также написал основополагающую статью о Случайных лесах в 2001 году, в которой содержится понятие важности признаков.

Вероятно, мой ответ пришел слишком поздно для вас, так как прошло 5 лет. Но я также искал подобную информацию сегодня и наткнулся на диссертацию, которая также обсуждает эту формулу, и они ссылаются на работы 2001 года (как упоминал Брайан Спиеринг в своем ответе), а также на работы Лео Бреймана 2002 года. Читатель может обратиться к следующей диссертации (уравнение 6.2 в разделе ‘6.1.2 Важности в лесах’):

G. Louppe, “Understanding Random Forests: From Theory to Practice”, диссертация на соискание степени доктора, У. Льеж, 2014. https://doi.org/10.48550/arXiv.1407.7502

Работы Лео Бреймана, из которых произошла эта формула:

Breiman, L., 2001. Random forests. Machine learning, 45, стр. 5-32.

L. Breiman. Руководство по настройке, использованию и пониманию случайных лесов v3. 1. Статистический департамент Университета Калифорнии в Беркли, Калифорния, США, 2002.

Я получил информацию об этой диссертации из следующего поста на stack exchange (ответил пользователь Venkatachalam):

https://stackoverflow.com/questions/57094596/what-is-this-score-actually-extra-trees-classifier-with-sklearn-python

Ответ или решение

Формула для расчета важности признаков, известная как "Gini importance" или "величина важности Gini", была впервые предложена Лиом Брейманом и его коллегами в рамках их работ по методам классификации и регрессии с использованием деревьев решений. Основные источники, связанные с этой концепцией, включают:

  1. Книга: "Classification and Regression Trees" (1986) от Л. Бреймана, Э. Дж. Фридмана, Р. А. Олшева, и Ч. Дж. Стона. Эта книга описывает основы построения деревьев решений и внедряет концепции, которые легли в основу вычисления важности признаков.

  2. Статья: В 2001 году Брейман опубликовал статью под названием "Random Forests", которая более подробно обсуждает алгоритмы случайных лесов. В этой статье он вводит и обосновывает методику оценки важности признаков, основываясь на уменьшениях критерия неопределённости (impurity) с учетом каждого признака.

  3. Руководство: В своей более поздней работе "Manual on setting up, using, and understanding random forests" (2002), Брейман предоставил практическое руководство для использования алгоритма случайных лесов, включая и методику для оценки важности признаков.

Формула, с которой вы знакомы,

$$\frac{N_s}{N_t} * \left(i – \frac{{N_s}_r}{N_s} i_r – \frac{{N_s}_l}{N_s} i_l \right)$$,

где:

  • (N_s) – количество образцов в узле,
  • (N_t) – общее количество образцов,
  • (i) – мера неопределенности (например, индекс Джини),
  • (_r) и (_l) – показатели правого и левого дочернего узлов,

действительно, используется в реализации случайных лесов в библиотеке scikit-learn.

Дополнительно, существует работа Г. Луппа "Understanding Random Forests: From Theory to Practice", защитившая диссертацию в 2014 году, которая также обсуждает данную формулу и ее связь с работами Бреймана, подчеркнув значимость этой темы в области машинного обучения.

Таким образом, основоположником метода важности признаков на основе уменьшения показателя неопределённости, который мы сегодня используем в scikit-learn и других библиотеках, является Ли Брейман, который установил фундаментальные концепции для этой области.

Оцените материал
Добавить комментарий

Капча загружается...