Data Science
Обработка пропущенных значений в предикторах для моделей градиентного бустинга (gbm()) в R
00
Вопрос или проблема В настоящее время я работаю над проектом предсказательной модели с использованием пакета gbm в R и столкнулся с проблемой пропущенных значений в одной из моих предикторных переменных. Я был бы признателен за ваши советы и рекомендации
Data Science
Низкая точность на тестовом наборе
00
Вопрос или проблема У меня есть набор данных с 16 признаками и 32 метками классов, который демонстрирует следующее поведение: Классификация нейронной сетью: высокая точность на обучающих данных 100%, но низкая точность на тестовом наборе 3% (почти как
Data Science
Приблизительное время выполнения GBDT
00
Вопрос или проблема Существует ли общее правило для приблизительной оценки времени работы gbdt (градиентные boosting деревья решений) или верхняя граница времени выполнения? Я понимаю, что это зависит от: числа итераций, времени на итерацию (вероятно
Data Science
Почему модель регрессии, созданная XGBoost, зависит от порядка обучающих данных, когда используется более 8194 точки данных?
00
Вопрос или проблема Когда я использую XGBRegressor для построения модели бустированного дерева на основе 8194 или меньшего числа точек данных (т.е. n_train $\leq$ 8194, где n_train определен в коде ниже) и случайно перемешиваю точки данных перед обучением
Data Science
Градиентный бустинг – Зачем псевдо-остатки?
00
Вопрос или проблема У меня есть несколько вопросов, которые я не совсем понимаю относительно алгоритма градиентного бустинга с решающими деревьями: Имеет ли значение начальное значение как $\hat{y}$ или вы можете выбрать любое, например, между 0 и 1?