Классификация методом случайного леса с нуля

Question 1

Я построил модель классификации с использованием случайного леса на Python, которая работает очень хорошо. Однако для реализации я хочу построить её с нуля на SQL. Есть ли у модели классификации случайного леса коэффициенты? Являются ли значения важности признаков теми же самыми, что и коэффициенты?

Question 2

Случайный лес (RF) основан на “голосовании большинством” и является непараметрическим методом. Таким образом, нет параметров, которые нужно оценивать. Важность признаков основана на перестановке и снова нет параметров, которые нужно оценивать. Поэтому на ваши вопросы:

На первый вопрос: НЕТ
На второй вопрос: НЕТ

Question 3

Что значит построить на SQL? Это значит, что вы будете переимплементировать все деревья в модели на SQL? Это будет много операторов CASE и JOIN. Быстрое размышление говорит о том, что каждое дерево может быть временной таблицей или общим табличным выражением с множеством вложенных операторов CASE, а затем объединяться по уникальному значению записи и другим операциям CASE для голосования. Это будет много работы и не очень отлаживаемо или поддерживаемо. Когда модель будет переобучена, вся работа по разработке SQL должна быть повторена. Учтите, что может быть 500, 1,000 или более деревьев с 10 или более уровнями в каждом дереве (некоторые случайные леса могут быть большими). Некоторые СУБД не могут объединить 1,000 таблиц, так что вам, возможно, придется разбить финальные соединения на несколько. Некоторые СУБД могут иметь ограничение на вложенные операторы CASE.

Это звучит как возможность переоценить среду производства. Если оценка должна быть в SQL, то модель с коэффициентами кажется лучшим вариантом.

Если используемая СУБД поддерживает удаленные процедуры, то рассмотрите возможность соединения с инструментом, который построил случайный лес и может оценивать напрямую.

Question 4

SQL не является языком программирования, а скорее (человеко-понятным) языком запросов; следовательно, очень редко можно встретить, например, какую-либо реализацию случайных лесов (RF). Тем не менее, (декларативный и процедурный) SQL является вычислимым по Тюрингу и, как таковой, случайные леса могут быть реализованы, если это необходимо.

Коэффициентов нет, если предполагаемое значение похоже на таковые у нейронных сетей. Если мы рассмотрим случай регрессии с RF (задача классификации может рассматриваться как частный случай), выход является средним значением каждого (базового, решающего дерева) регрессора, то есть:
$$
\hat{y} = RF(\vec{x}) = \frac{1}{K} \cdot \sum_{k = 1}^K DT_k(\vec{x}) = \frac{1}{K} \cdot DT_1(\vec{x}) + \frac{1}{K} \cdot DT_2(\vec{x}) + \ldots + \frac{1}{K} \cdot DT_K(\vec{x}),
$$
где $\hat{y}$ это предсказанный выход, $K$ это число деревьев в модели RF, а $DT_i(\vec{x})$, для $1 \le i \le K$, это предсказанный выход $i$-го дерева на входном векторе $\vec{x}$. Затем вектор коэффициентов размерности $K$ можно получить, например, с помощью модели линейной регрессии.

Наконец, как сказал ДаКард, важность признаков не связана с коэффициентами.

Question 5

Я не уверен, что вы имеете в виду под “коэффициентами”. Классификатор случайного леса состоит из решающих деревьев. Каждое решающее дерево имеет точки разбиения, где оно выбирает признак и значение для разбиения.

В случайном лесу важность признаков может быть оценена по чистоте, которая вычисляется как (нормализованное) полное снижение критерия, обеспеченное этим признаком. Это дополнительный шаг сверх шага разбиения.

Классификация методом случайного леса с нуля

Вопрос или проблема

Ответ или решение

Построение модели классификации методом случайного леса с нуля на SQL

Введение

Ответы на вопросы

Реализация случайного леса в SQL

Основные шаги для реализации:

Проблемы и рекомендации

Заключение