gradient-boosting-decision-trees - ответы на вопросы

Data Science

Мои модели на основе деревьев продолжают переобучаться.

00

Вопрос или проблема Это проект многоклассовой классификации. Каждая модель сильно переобучается. Дерево решений, Random Forest и особенно XGBoost. И отчет по классификации это отражает. где находится csv https://github.com/MortalWombat-repo/Fetal-Health-Classification

Data Science

Как LGBM делает предсказание?

00

Вопрос или проблема В данный момент мы пытаемся разобраться, как LGBM создает свои деревья и как после этого делаются предсказания. На мой нынешний взгляд, это работает следующим образом: Последовательно создаются несколько “

Data Science

Случайный лес LightGBM

00

Вопрос или проблема Я не совсем уверен в смещении/дисперсии бустированных деревьев решений (особенно LightGBM), поэтому мне интересно, ожидаем ли мы в общем улучшения производительности, создавая ансамбль из нескольких моделей LightGBM, так же как с Random Forest?

Data Science

Обработка пропущенных значений в предикторах для моделей градиентного бустинга (gbm()) в R

01

Вопрос или проблема В настоящее время я работаю над проектом предсказательной модели с использованием пакета gbm в R и столкнулся с проблемой пропущенных значений в одной из моих предикторных переменных. Я был бы признателен за ваши советы и рекомендации

Data Science

Низкая точность на тестовом наборе

00

Вопрос или проблема У меня есть набор данных с 16 признаками и 32 метками классов, который демонстрирует следующее поведение: Классификация нейронной сетью: высокая точность на обучающих данных 100%, но низкая точность на тестовом наборе 3% (почти как

Data Science

Приблизительное время выполнения GBDT

00

Вопрос или проблема Существует ли общее правило для приблизительной оценки времени работы gbdt (градиентные boosting деревья решений) или верхняя граница времени выполнения? Я понимаю, что это зависит от: числа итераций, времени на итерацию (вероятно

Data Science

Почему модель регрессии, созданная XGBoost, зависит от порядка обучающих данных, когда используется более 8194 точки данных?

00

Вопрос или проблема Когда я использую XGBRegressor для построения модели бустированного дерева на основе 8194 или меньшего числа точек данных (т.е. n_train $\leq$ 8194, где n_train определен в коде ниже) и случайно перемешиваю точки данных перед обучением

Data Science

Градиентный бустинг – Зачем псевдо-остатки?

01

Вопрос или проблема У меня есть несколько вопросов, которые я не совсем понимаю относительно алгоритма градиентного бустинга с решающими деревьями: Имеет ли значение начальное значение как $\hat{y}$ или вы можете выбрать любое, например, между 0 и 1?