xgboost
Data Science
Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель
Data Science
Вопрос или проблема У меня есть следующий датафрейм (в широком формате), который фиксирует IQ, Hours (количество часов учебы) и Score (оценки на прошлом экзамене для студентов 1,2,3,4 в разных классах (Class_ID), и я хотел бы использовать эти характеристики
Data Science
Вопрос или проблема Мой проект заключается в попытке предсказать количество продаж для конкретного товара в течение всего года. Я использовал пакет LightGBM для проведения прогнозов. Параметры, которые я установил, следующие: params = { 'nthread': 10
Data Science
Вопрос или проблема Что я делаю: Я предсказываю рейтинги продуктов с использованием бустинговых деревьев (XGBoost) с набором данных в следующем формате: Что я хочу сделать: Я хочу использовать SHAP TreeExplainer, чтобы интерпретировать каждое предсказание
Data Science
Вопрос или проблема Я собрал базу данных игр Clash Royale в попытке понять результаты различных матчей. Игра состоит из колоды из 8 карт, взятых из 102 карт. Как видно из Cnr, это очень широкое пространство с множеством возможностей.
Data Science
Вопрос или проблема Я получаю ошибку DataFrame.dtypes в процессе выполнения последних шагов этого учебника. Вот мой код: import xgboost as xgb regr = xgb.XGBRegressor(colsample_bytree=0.2, gamma=0.0, learning_rate=0.05, max_depth=6, min_child_weight=1.
Data Science
Вопрос или проблема У меня есть тренировочный набор данных из 2600 строк и 26 колонок. Я обучил классификационную модель XGBoost (1.3.1) с использованием этих данных и оценил ее с помощью тестового набора из примерно 800 строк.
Data Science
Вопрос или проблема Я получаю эту ошибку, пытаясь загрузить сохранённую модель XGBRegressor локально: FutureWarning: Класс XGBRegressor или классы, от которых он наследуется, используют `_get_tags` и `_more_tags`. Пожалуйста, определите метод `__sklearn_tags__`
Data Science
Вопрос или проблема Вот код для назначения переменных X = pd.DataFrame(np.c_[df['day'], df['spend'], df['platform'],df['month'],df['year']], columns=[['day', 'spend','platform','month','year']]) y = pd.DataFrame(np.c_[df['revenue']], columns=['revenue'])
Data Science
Вопрос или проблема В пакете caret для R есть метод ‘xgblinear’. Какой алгоритм лежит в основе этого метода? Не уверена, полезно ли это, но вот ссылка на академическую работу, в которой подробно описывается как алгоритм XGBoost, так и его применения.
Data Science
Вопрос или проблема Рассмотрим набор данных и два бинарных класса CLASS_A и CLASS_B. Предположим, что мы обучаем модель, такую как XGBClassifier, для обоих классов (отдельно) и получаем две модели: MODEL_A для предсказания CLASS_A и MODEL_B для предсказания CLASS_B.
Data Science
Вопрос или проблема Рассмотрим ситуацию, в которой у меня есть несбалансированный набор данных, где целевой класс принимает значение = 1 в 0,01% наблюдений и значение = 0 в 99,9% наблюдений. Я обучаю модель классификации, скажем, XGBClassifier и получаю
Data Science
Вопрос или проблема Я работаю над набором данных для обнаружения мошенничества, который, по естественным причинам, сильно несбалансирован. Мой классификатор – это XGBoost с весами классов. Другими словами, я просто увеличиваю вес положительного
Data Science
Вопрос или проблема Я создал модель XGBRegressor с определенными закодированными даными типа ‘object’ в данных. Теперь, если я хочу запустить модель с новым набором данных, который только что закодирован, она дает неправильные предсказания.
Data Science
Вопрос или проблема Я не совсем уверен, как мне следует настраивать xgboost, прежде чем использовать его в качестве мета-обучающего в ансамблевом обучении. Должен ли я включать матрицу предсказаний (то есть df, содержащий столбцы результатов предсказаний
Data Science
Вопрос или проблема Если использовать разные деревья решений, каждое из которых основано на определённом значении признака (например, отдельные модели для мужчин и женщин), или одно дерево решений, должны ли они давать одинаковый результат?
Data Science
Вопрос или проблема У меня есть набор данных, в котором каждая зависимая переменная — это число успехов в N испытаниях Бернулли, причем N и p (вероятность успеха) отличаются для каждого наблюдения. Цель состоит в том, чтобы обучить модель предсказывать p, учитывая предикторы.
Data Science
Вопрос или проблема Мой набор данных состоит из комбинации двух баз данных. Одна база данных содержит индивидуальные данные о характеристиках и компенсации пяти главных исполнительных директоров крупных американских компаний. Вторая база данных содержит
Data Science
Вопрос или проблема Я обучаю модели машинного обучения (Xgboost и LightGbm) с использованием snowpark, но после каждой попытки у меня получаются разные значения метрик (AUC, Средняя точность), и поэтому я никогда не знаю, какая моя лучшая модель.
Data Science
Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X