Data Science
Один хот и взаимодействие один хот на нескольких категориальных.
00
Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X
Data Science
Предсказать товары, которые покупатели приобретут в следующем заказе.
00
Вопрос или проблема Я работаю над задачей классификации временных рядов, чтобы определить, какие товары клиенты купят в своем следующем заказе (клиенты заказывают разные продукты каждую неделю). Допустим, у нас есть клиент, который заказывает каждую неделю, но разные товары.
Data Science
агрегация важности признаков
00
Вопрос или проблема У меня есть более концептуальный вопрос, по которому я надеюсь получить обратную связь. Я пытаюсь запустить модель машинного обучения с бустингом для выявления подмножества важных предикторов для некоторого клинического состояния.
Data Science
Улучшение точности предсказаний с помощью XGBoost
00
Вопрос или проблема У меня есть матрица 32×20, для которой я пытаюсь использовать XGBoost (регрессия). Я прохожу по строкам, чтобы произвести прогноз вне выборки. Я удивлен, что XGBoost возвращает ошибку вне выборки (MAPE) всего 3-4%.
Data Science
Какая функция потерь является лучшей функцией потерь при использовании регрессии XGB с сильно искаженными данными?
00
Вопрос или проблема Какая функция потерь является лучшей функцией потерь при использовании регрессии XGB с сильно искаженными данными? Искаженность данных очень высока. Я использовал XGBoost с целевой функцией линейной регрессии (но данные были преобразованы
Data Science
Как сделать классификаторы 1-против-остальных в библиотеке XGBoost (не Sklearn)?
00
Вопрос или проблема Я работаю с очень большим набором данных, который benefited от продолжения обучения с параметром xgb_model в xgb.train(). Метка (Y) самого набора данных имеет 4 класса и сильно несбалансирована, поэтому я хотел бы сгенерировать PR-кривые
Вопросы и ответы
Более эффективный способ передачи данных в AWS Batch Transform Job
00
Вопрос или проблема У меня есть процесс в Sagemaker для обучения и проведения инференса на данных в Sagemaker: Обработка задания: чтение входных CSV файлов из S3 и очистка данных, вывод CSV файлов в S3 Обработка задания: чтение очищенных CSV данных из
Data Science
Проблема предсказания с пользовательской функцией потерь xgboost
00
Вопрос или проблема У меня проблема с пользовательскими функциями потерь в xgboost: я не могу получить последовательные прогнозы. Другими словами, масштаб моих прогнозов не соответствует значениям, которые я хотел бы предсказать.
Data Science
XGBoost CV путаница в том, как выбрать оценочный набор
00
Вопрос или проблема Если я использую XGBoost с GridSearchCV, как мне выбрать набор для оценки? Обратите внимание, что я имею в виду eval_set в параметрах модели. Моя текущая реализация использует GridSearchCV для оптимизации гиперпараметров, однако, если
Data Science
Статическая ML модель или временной ряд? Как моделировать/предсказывать бинарную целевую переменную, когда у меня есть временные характеристики, но большинство признаков постоянны?
00
Вопрос или проблема Я работаю с реальными данными пациентов. У меня есть набор данных с информацией о 10 миллионах пациентов, собранный за разный период времени (от 5 до 20 лет). Что я предсказываю, так это бинарный риск (или, возможно, вероятность этого
Data Science
Имеет ли смысл, что производительность XG Boost резко варьируется между двумя машинами при фиксированных гиперпараметрах?
00
Вопрос или проблема Я настраиваю гиперпараметры модели XGBoost и обнаруживаю, что в зависимости от того, тренирую ли я модель локально на своем компьютере или на AWS SageMaker, я получаю довольно разные результаты. Запуск перекрестной проверки локально
Data Science
XGBoost выводит деревья за пределами n_estimator
00
Вопрос или проблема У меня есть модель XGBoost с следующими параметрами xgbc_final = XGBClassifier(objective="multi:softprob", num_class = 2,max_depth = 60, n_estimators = 512, reg_lambda = 0.1214, alpha = 0.9131, gamma = 0, colsample_bytree = 0.
Data Science
xgboost – colsample_bylevel и colsample_bynode
00
Вопрос или проблема Я не совсем понимаю значение этих параметров xgboost или как они отличаются: Если я укажу ровно один из этих параметров (не оба одновременно), colsample_bylevel=0.5 colsample_bynode=0.5 разве алгоритмы не должны вести себя одинаково в обоих случаях?
Data Science
Почему модель регрессии, созданная XGBoost, зависит от порядка обучающих данных, когда используется более 8194 точки данных?
00
Вопрос или проблема Когда я использую XGBRegressor для построения модели бустированного дерева на основе 8194 или меньшего числа точек данных (т.е. n_train $\leq$ 8194, где n_train определен в коде ниже) и случайно перемешиваю точки данных перед обучением
Data Science
В чем разница между многоклассовой категориальной кроссэнтропией, mlogloss и multi:softprob?
00
Вопрос или проблема Насколько я понимаю, целевая функция — это то, что я пытаюсь оптимизировать, а оценочная статистика — это то, что я использую для поиска переобучения. Я наткнулся на 4 функции потерь, которые, кажется, одинаковы, но я не совсем уверен.
Data Science
Корректная теоретическая регуляризованная объектная функция для XGB/LGBM (задача регрессии)
00
Вопрос или проблема Я пишу академическую работу по применению методов машинного обучения к прогнозированию временных рядов, и не уверен, как описать теоретическую часть о регуляризованной целевой функции для XGBoost. Ниже вы можете найти уравнение, представленное
Вопросы и ответы
Предоставляет ли Spark XGBoost способ освободить базовую память, выделенную модулями XGBoost на C++?
00
Вопрос или проблема Мы используем Spark для обучения или дообучения моделей с помощью Spark. По некоторым причинам мы хотим выгрузить модель из Spark и выполнить некоторые другие задачи после завершения обучения. Мы не уверены, как освободить всю память