Как интерпретировать важность модели случайного леса, среднее уменьшение точности и среднее уменьшение Джини?

Содержание

Вопрос или проблема
Ответ или решение
1. Mean Decrease Accuracy
2. Mean Decrease Gini
Интерпретация результатов
Рекомендации по выбору признаков
Заключение

Вопрос или проблема

Модель случайного леса выводит следующие значения важности. Как мне их интерпретировать для выбора признаков? Если это среднее снижение точности, означает ли это, что удаление этих признаков из модели должно увеличить точность?

Я не уверен, какое программное обеспечение вы используете, поэтому не знаю деталей, но в общем это просто: самые высокие значения указывают на признаки, которые способствуют наибольшему вкладу в целевую переменную.

Конкретно, среднее снижение точности показывает, насколько точность уменьшается при удалении этого признака. Таким образом, снова, высокое значение (например, эмоциональность в вашем примере) указывает на важный признак для предсказания целевой переменной.

Краткое резюме по отбору признаков заключалось бы в удалении ресурсов, которые не полезны ни для чего. Это не улучшает точность модели. Это не имеет отношения к другим атрибутам, которые находятся в наборе без необходимости.

Лучший способ интерпретировать это — построить график для каждого признака, который у вас есть. Это упростит ваш анализ ресурсов, которые вы используете для улучшения модели. Многие из этих признаков являются шумом, они также могут стать обременением для обработки, когда мы обучаем модель, занимая больше времени. Интересный способ сделать сравнение — это обучить всю выборку, зафиксировать время и измерить её точность, а затем выбрать признаки с наилучшей производительностью, снова обучить модель, выполнить те же замеры и сравнить, есть ли улучшение или нет. Проводя эти наблюдения, вы сможете увидеть, какие признаки лучше отбирать.

В поисках я нашел очень хорошее объяснение отбора признаков с использованием SelectFromModel из SK-Learn, где вы можете выполнить отбор и анализ.

Отбор признаков с использованием случайного леса

SelectFromModel SK-Learn

Еще один очень хороший инструмент, который может помочь вам, это yellowbrick, этот инструмент очень полезен. Я приведу ссылку ниже, там есть очень хороший пример с классификатором градиентного бустинга.

Выбор модели YellowBrick

Ответ или решение

Чтобы интерпретировать важность признаков в модели случайного леса, следует рассмотреть два основных показателя: Mean Decrease Accuracy (среднее уменьшение точности) и Mean Decrease Gini (среднее уменьшение Джини). Каждый из них предоставляет ценную информацию о том, как разные признаки влияют на производительность модели.

1. Mean Decrease Accuracy

Mean Decrease Accuracy показывает, насколько снизится точность модели при исключении конкретного признака. Чем выше значение этого показателя для признака, тем более важен этот признак для предсказания целевой переменной. То есть, если у вас, например, признак с высоким значением Mean Decrease Accuracy, это означает, что его удаление приведет к значительному ухудшению точности модели.

Важно: Значение показывает не то, что при удалении признака точность обязательно увеличится, а именно то, что точность уменьшится. Поэтому, если вы рассматриваете признаки для удаления, обратите внимание на те, которые имеют низкие значения Mean Decrease Accuracy, так как их исключение, вероятно, не скажется значительно на производительности модели.

2. Mean Decrease Gini

Mean Decrease Gini отражает, насколько один признак помогает улучшить разделение классов в деревьях внутри ансамбля случайного леса. Это значение основано на индексе Джини, который используется для оценки чистоты узлов в деревьях решений (чем выше индекс, тем более "чистый" узел). Высокие значения Mean Decrease Gini указывают на то, что признак вносит значительный вклад в создание чистых узлов, что, соответственно, помогает улучшить точность предсказаний модели.

Интерпретация результатов

При интерпретации значений важно учитывать следующее:

Признаки с высокими значениями как Mean Decrease Accuracy, так и Mean Decrease Gini являются наиболее важными для модели. Они должны быть оставлены в процессе выбора признаков.
Признаки с низкими значениями могут рассматриваться для удаления, особенно если при тестировании модели с и без этих признаков наблюдается незначительная разница в точности.
Выбор признаков может повлиять не только на точность, но и на вычислительную нагрузку модели. Меньшее количество признаков может привести к более быстрой тренировке и повышению интерпретируемости модели.

Заключение

Интерпретация важности признаков считается ключевым этапом в процессе разработки модели машинного обучения, особенно в случае случайного леса. Правильное понимание Mean Decrease Accuracy и Mean Decrease Gini позволяет более осознанно подходить к выбору признаков, что может улучшить не только качество ваших предсказаний, но и увеличить производительность модели в целом.