Data Science
Почему моя ошибка на стадии валидации может перестать снижаться, в то время как ошибка на стадии обучения продолжает уменьшаться?
00
Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель
Data Science
Изучение моделей для немутуально исключающих событий/меток, кроме многометочной классификации.
00
Вопрос или проблема У меня есть следующий датафрейм (в широком формате), который фиксирует IQ, Hours (количество часов учебы) и Score (оценки на прошлом экзамене для студентов 1,2,3,4 в разных классах (Class_ID), и я хотел бы использовать эти характеристики
Data Science
Отрицательный R2_score Плохие прогнозы для моей задачи прогнозирования продаж с использованием LightGBM.
00
Вопрос или проблема Мой проект заключается в попытке предсказать количество продаж для конкретного товара в течение всего года. Я использовал пакет LightGBM для проведения прогнозов. Параметры, которые я установил, следующие: params = { 'nthread': 10
Data Science
Как реорганизовать мой набор данных для улучшения интерпретируемости без потери производительности?
00
Вопрос или проблема Что я делаю: Я предсказываю рейтинги продуктов с использованием бустинговых деревьев (XGBoost) с набором данных в следующем формате: Что я хочу сделать: Я хочу использовать SHAP TreeExplainer, чтобы интерпретировать каждое предсказание
Data Science
Проблема предсказания в широком пространстве карточных игр Clash Royale
00
Вопрос или проблема Я собрал базу данных игр Clash Royale в попытке понять результаты различных матчей. Игра состоит из колоды из 8 карт, взятых из 102 карт. Как видно из Cnr, это очень широкое пространство с множеством возможностей.
Data Science
Ошибка DataFrame.dtypes при обучении модели с использованием xgboost
00
Вопрос или проблема Я получаю ошибку DataFrame.dtypes в процессе выполнения последних шагов этого учебника. Вот мой код: import xgboost as xgb regr = xgb.XGBRegressor(colsample_bytree=0.2, gamma=0.0, learning_rate=0.05, max_depth=6, min_child_weight=1.
Data Science
Результаты XGBoost меняются при удалении одной строки
00
Вопрос или проблема У меня есть тренировочный набор данных из 2600 строк и 26 колонок. Я обучил классификационную модель XGBoost (1.3.1) с использованием этих данных и оценил ее с помощью тестового набора из примерно 800 строк.
Data Science
Ошибка метода XGBoost __sklearn_tags__ в Python при загрузке модели
00
Вопрос или проблема Я получаю эту ошибку, пытаясь загрузить сохранённую модель XGBRegressor локально: FutureWarning: Класс XGBRegressor или классы, от которых он наследуется, используют `_get_tags` и `_more_tags`. Пожалуйста, определите метод `__sklearn_tags__`
Data Science
Ошибка XGB DataFrame.dtypes
00
Вопрос или проблема Вот код для назначения переменных X = pd.DataFrame(np.c_[df['day'], df['spend'], df['platform'],df['month'],df['year']], columns=[['day', 'spend','platform','month','year']]) y = pd.DataFrame(np.c_[df['revenue']], columns=['revenue'])
Data Science
На каком алгоритме бустинга основан метод xgbLinear пакета xgboost/caret?
00
Вопрос или проблема В пакете caret для R есть метод ‘xgblinear’. Какой алгоритм лежит в основе этого метода? Не уверена, полезно ли это, но вот ссылка на академическую работу, в которой подробно описывается как алгоритм XGBoost, так и его применения.
Data Science
Сравнение вероятностей двух моделей
00
Вопрос или проблема Рассмотрим набор данных и два бинарных класса CLASS_A и CLASS_B. Предположим, что мы обучаем модель, такую как XGBClassifier, для обоих классов (отдельно) и получаем две модели: MODEL_A для предсказания CLASS_A и MODEL_B для предсказания CLASS_B.
Data Science
Интерпретация предсказанных вероятностей после ребалансировки
00
Вопрос или проблема Рассмотрим ситуацию, в которой у меня есть несбалансированный набор данных, где целевой класс принимает значение = 1 в 0,01% наблюдений и значение = 0 в 99,9% наблюдений. Я обучаю модель классификации, скажем, XGBClassifier и получаю
Data Science
Есть ли больше в несбалансированной классификации с XGBoost, чем просто перераспределение функции потерь?
00
Вопрос или проблема Я работаю над набором данных для обнаружения мошенничества, который, по естественным причинам, сильно несбалансирован. Мой классификатор – это XGBoost с весами классов. Другими словами, я просто увеличиваю вес положительного
Data Science
Как обеспечить одинаковый шаблон кодирования?
00
Вопрос или проблема Я создал модель XGBRegressor с определенными закодированными даными типа ‘object’ в данных. Теперь, если я хочу запустить модель с новым набором данных, который только что закодирован, она дает неправильные предсказания.
Data Science
Gridsearch XGBoost для ансамбля. Нужно ли включать матрицу предсказаний первого уровня базовых моделей в обучающую выборку?
00
Вопрос или проблема Я не совсем уверен, как мне следует настраивать xgboost, прежде чем использовать его в качестве мета-обучающего в ансамблевом обучении. Должен ли я включать матрицу предсказаний (то есть df, содержащий столбцы результатов предсказаний
Data Science
отдельное дерево решений для категориальных значений признаков
00
Вопрос или проблема Если использовать разные деревья решений, каждое из которых основано на определённом значении признака (например, отдельные модели для мужчин и женщин), или одно дерево решений, должны ли они давать одинаковый результат?
Data Science
Обучение модели, где каждый ответ в наблюдательных данных имеет разную известную дисперсию.
00
Вопрос или проблема У меня есть набор данных, в котором каждая зависимая переменная — это число успехов в N испытаниях Бернулли, причем N и p (вероятность успеха) отличаются для каждого наблюдения. Цель состоит в том, чтобы обучить модель предсказывать p, учитывая предикторы.
Data Science
XGboost с учетом групповых и индивидуальных данных
00
Вопрос или проблема Мой набор данных состоит из комбинации двух баз данных. Одна база данных содержит индивидуальные данные о характеристиках и компенсации пяти главных исполнительных директоров крупных американских компаний. Вторая база данных содержит
Data Science
Почему я получаю разную производительность на разных запусках моей ML модели?
00
Вопрос или проблема Я обучаю модели машинного обучения (Xgboost и LightGbm) с использованием snowpark, но после каждой попытки у меня получаются разные значения метрик (AUC, Средняя точность), и поэтому я никогда не знаю, какая моя лучшая модель.
Data Science
Один хот и взаимодействие один хот на нескольких категориальных.
00
Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X