xgboost - ответы на вопросы

Data Science

Почему моя ошибка на стадии валидации может перестать снижаться, в то время как ошибка на стадии обучения продолжает уменьшаться?

00

Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель

Data Science

Изучение моделей для немутуально исключающих событий/меток, кроме многометочной классификации.

00

Вопрос или проблема У меня есть следующий датафрейм (в широком формате), который фиксирует IQ, Hours (количество часов учебы) и Score (оценки на прошлом экзамене для студентов 1,2,3,4 в разных классах (Class_ID), и я хотел бы использовать эти характеристики

Data Science

Отрицательный R2_score Плохие прогнозы для моей задачи прогнозирования продаж с использованием LightGBM.

00

Вопрос или проблема Мой проект заключается в попытке предсказать количество продаж для конкретного товара в течение всего года. Я использовал пакет LightGBM для проведения прогнозов. Параметры, которые я установил, следующие: params = { 'nthread': 10

Data Science

Как реорганизовать мой набор данных для улучшения интерпретируемости без потери производительности?

00

Вопрос или проблема Что я делаю: Я предсказываю рейтинги продуктов с использованием бустинговых деревьев (XGBoost) с набором данных в следующем формате: Что я хочу сделать: Я хочу использовать SHAP TreeExplainer, чтобы интерпретировать каждое предсказание

Data Science

Проблема предсказания в широком пространстве карточных игр Clash Royale

00

Вопрос или проблема Я собрал базу данных игр Clash Royale в попытке понять результаты различных матчей. Игра состоит из колоды из 8 карт, взятых из 102 карт. Как видно из Cnr, это очень широкое пространство с множеством возможностей.

Data Science

Ошибка DataFrame.dtypes при обучении модели с использованием xgboost

00

Вопрос или проблема Я получаю ошибку DataFrame.dtypes в процессе выполнения последних шагов этого учебника. Вот мой код: import xgboost as xgb regr = xgb.XGBRegressor(colsample_bytree=0.2, gamma=0.0, learning_rate=0.05, max_depth=6, min_child_weight=1.

Data Science

Результаты XGBoost меняются при удалении одной строки

00

Вопрос или проблема У меня есть тренировочный набор данных из 2600 строк и 26 колонок. Я обучил классификационную модель XGBoost (1.3.1) с использованием этих данных и оценил ее с помощью тестового набора из примерно 800 строк.

Data Science

Ошибка метода XGBoost __sklearn_tags__ в Python при загрузке модели

00

Вопрос или проблема Я получаю эту ошибку, пытаясь загрузить сохранённую модель XGBRegressor локально: FutureWarning: Класс XGBRegressor или классы, от которых он наследуется, используют `_get_tags` и `_more_tags`. Пожалуйста, определите метод `__sklearn_tags__`

Data Science

Ошибка XGB DataFrame.dtypes

00

Вопрос или проблема Вот код для назначения переменных X = pd.DataFrame(np.c_[df['day'], df['spend'], df['platform'],df['month'],df['year']], columns=[['day', 'spend','platform','month','year']]) y = pd.DataFrame(np.c_[df['revenue']], columns=['revenue'])

Data Science

На каком алгоритме бустинга основан метод xgbLinear пакета xgboost/caret?

00

Вопрос или проблема В пакете caret для R есть метод ‘xgblinear’. Какой алгоритм лежит в основе этого метода? Не уверена, полезно ли это, но вот ссылка на академическую работу, в которой подробно описывается как алгоритм XGBoost, так и его применения.

Data Science

Сравнение вероятностей двух моделей

00

Вопрос или проблема Рассмотрим набор данных и два бинарных класса CLASS_A и CLASS_B. Предположим, что мы обучаем модель, такую как XGBClassifier, для обоих классов (отдельно) и получаем две модели: MODEL_A для предсказания CLASS_A и MODEL_B для предсказания CLASS_B.

Data Science

Интерпретация предсказанных вероятностей после ребалансировки

00

Вопрос или проблема Рассмотрим ситуацию, в которой у меня есть несбалансированный набор данных, где целевой класс принимает значение = 1 в 0,01% наблюдений и значение = 0 в 99,9% наблюдений. Я обучаю модель классификации, скажем, XGBClassifier и получаю

Data Science

Есть ли больше в несбалансированной классификации с XGBoost, чем просто перераспределение функции потерь?

00

Вопрос или проблема Я работаю над набором данных для обнаружения мошенничества, который, по естественным причинам, сильно несбалансирован. Мой классификатор – это XGBoost с весами классов. Другими словами, я просто увеличиваю вес положительного

Data Science

Как обеспечить одинаковый шаблон кодирования?

00

Вопрос или проблема Я создал модель XGBRegressor с определенными закодированными даными типа ‘object’ в данных. Теперь, если я хочу запустить модель с новым набором данных, который только что закодирован, она дает неправильные предсказания.

Data Science

Gridsearch XGBoost для ансамбля. Нужно ли включать матрицу предсказаний первого уровня базовых моделей в обучающую выборку?

00

Вопрос или проблема Я не совсем уверен, как мне следует настраивать xgboost, прежде чем использовать его в качестве мета-обучающего в ансамблевом обучении. Должен ли я включать матрицу предсказаний (то есть df, содержащий столбцы результатов предсказаний

Data Science

отдельное дерево решений для категориальных значений признаков

00

Вопрос или проблема Если использовать разные деревья решений, каждое из которых основано на определённом значении признака (например, отдельные модели для мужчин и женщин), или одно дерево решений, должны ли они давать одинаковый результат?

Data Science

Обучение модели, где каждый ответ в наблюдательных данных имеет разную известную дисперсию.

00

Вопрос или проблема У меня есть набор данных, в котором каждая зависимая переменная — это число успехов в N испытаниях Бернулли, причем N и p (вероятность успеха) отличаются для каждого наблюдения. Цель состоит в том, чтобы обучить модель предсказывать p, учитывая предикторы.

Data Science

XGboost с учетом групповых и индивидуальных данных

00

Вопрос или проблема Мой набор данных состоит из комбинации двух баз данных. Одна база данных содержит индивидуальные данные о характеристиках и компенсации пяти главных исполнительных директоров крупных американских компаний. Вторая база данных содержит

Data Science

Почему я получаю разную производительность на разных запусках моей ML модели?

00

Вопрос или проблема Я обучаю модели машинного обучения (Xgboost и LightGbm) с использованием snowpark, но после каждой попытки у меня получаются разные значения метрик (AUC, Средняя точность), и поэтому я никогда не знаю, какая моя лучшая модель.

Data Science

Один хот и взаимодействие один хот на нескольких категориальных.

00

Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X