Вопрос или проблема
Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло.
Вот формула, с которой я знаком и которую ищу в статье:
$$\frac{N_s}{N_t} * \left(i – \frac{{N_s}_r}{N_s} i_r – \frac{{N_s}_l}{N_s} i_l \right)$$
где
$N_s$ = количество образцов в данном узле
$N_t$ = общее количество образцов
$i$ = Нечистота
$*_r$ = мера правого дочернего узла
$*_l$ = мера левого дочернего узла
Если я правильно понимаю, это формула, которую также используют случайные леса sklearn в model.feature_importances_
Теги (так как у меня недостаточно репутации, чтобы создать новые): Оценка важности признаков, Важность Джини
Существует статья, которая охватывает “Происхождение индекса Джини“. Индекс Джини был подробно описан Лео Брейманом и др. в книге “Деревья классификации и регрессии” в 1984 году. Лео Брейман также написал основополагающую статью о Случайных лесах в 2001 году, в которой содержится понятие важности признаков.
Вероятно, мой ответ пришел слишком поздно для вас, так как прошло 5 лет. Но я также искал подобную информацию сегодня и наткнулся на диссертацию, которая также обсуждает эту формулу, и они ссылаются на работы 2001 года (как упоминал Брайан Спиеринг в своем ответе), а также на работы Лео Бреймана 2002 года. Читатель может обратиться к следующей диссертации (уравнение 6.2 в разделе ‘6.1.2 Важности в лесах’):
G. Louppe, “Understanding Random Forests: From Theory to Practice”, диссертация на соискание степени доктора, У. Льеж, 2014. https://doi.org/10.48550/arXiv.1407.7502
Работы Лео Бреймана, из которых произошла эта формула:
Breiman, L., 2001. Random forests. Machine learning, 45, стр. 5-32.
L. Breiman. Руководство по настройке, использованию и пониманию случайных лесов v3. 1. Статистический департамент Университета Калифорнии в Беркли, Калифорния, США, 2002.
Я получил информацию об этой диссертации из следующего поста на stack exchange (ответил пользователь Venkatachalam):
Ответ или решение
Формула для расчета важности признаков, известная как "Gini importance" или "величина важности Gini", была впервые предложена Лиом Брейманом и его коллегами в рамках их работ по методам классификации и регрессии с использованием деревьев решений. Основные источники, связанные с этой концепцией, включают:
-
Книга: "Classification and Regression Trees" (1986) от Л. Бреймана, Э. Дж. Фридмана, Р. А. Олшева, и Ч. Дж. Стона. Эта книга описывает основы построения деревьев решений и внедряет концепции, которые легли в основу вычисления важности признаков.
-
Статья: В 2001 году Брейман опубликовал статью под названием "Random Forests", которая более подробно обсуждает алгоритмы случайных лесов. В этой статье он вводит и обосновывает методику оценки важности признаков, основываясь на уменьшениях критерия неопределённости (impurity) с учетом каждого признака.
-
Руководство: В своей более поздней работе "Manual on setting up, using, and understanding random forests" (2002), Брейман предоставил практическое руководство для использования алгоритма случайных лесов, включая и методику для оценки важности признаков.
Формула, с которой вы знакомы,
$$\frac{N_s}{N_t} * \left(i – \frac{{N_s}_r}{N_s} i_r – \frac{{N_s}_l}{N_s} i_l \right)$$,
где:
- (N_s) – количество образцов в узле,
- (N_t) – общее количество образцов,
- (i) – мера неопределенности (например, индекс Джини),
- (_r) и (_l) – показатели правого и левого дочернего узлов,
действительно, используется в реализации случайных лесов в библиотеке scikit-learn.
Дополнительно, существует работа Г. Луппа "Understanding Random Forests: From Theory to Practice", защитившая диссертацию в 2014 году, которая также обсуждает данную формулу и ее связь с работами Бреймана, подчеркнув значимость этой темы в области машинного обучения.
Таким образом, основоположником метода важности признаков на основе уменьшения показателя неопределённости, который мы сегодня используем в scikit-learn и других библиотеках, является Ли Брейман, который установил фундаментальные концепции для этой области.