Data Science
Рассчитываем важность признаков по методу перестановки. Два метода дают два разных результата, почему так?
00
Вопрос или проблема 1º метод выводов: Away Attack = 0.152322 и Home Attack = 0.0 2º метод выводов: Away Attack = 0.928571 и Home Attack = 0.071429 Почему так? Точность 69%. У меня много признаков, и я выбрал только эти 2. # Рассчитать важность путем перестановки
Data Science
Могу ли я использовать макро-отзыв, чтобы проверить, переобучается ли моя модель RF?
00
Вопрос или проблема У меня есть набор данных с 837377 наблюдениями (51% для обучения, 25% для валидации и 24% для тестирования) и 19 признаков. Я вычислил показатель полноты, используя среднее по макро для обучения, валидации и тестирования, и получил
Data Science
Обозначение $splits(label)$ в методе случайного леса
00
Вопрос или проблема В статье “Справедливые Леса: Регуляризированное Породение Деревьев для Минимизации Модели Отклонения” написано, что Мы предлагаем простой подход регуляризации для построения алгоритма индукции справедливого решения дерева.
Data Science
Является ли этот случайный лес логически правильным и корректно реализованным с помощью R и gbm?
00
Вопрос или проблема По профессиональным причинам я хочу изучить и понять случайные леса. Я чувствую себя неуверенно в том, правильно ли я понимаю или совершаю логические ошибки. У меня есть набор данных с 15 миллионами записей, и я хочу сделать регрессию
Data Science
Набор данных, с которым я работаю, кажется, был искусственно создан, и целевая переменная имеет одинаковое среднее значение независимо от разделения.
00
Вопрос или проблема Я пытаюсь запустить Random Forest на наборе данных, содержащем 4 синтетических признака с распределением от примерно -5 до 5. Невозможно сказать, что означают эти признаки. Также в наборе данных есть product_id, customer_id, product_category и customer_segment.
Data Science
Переобученная модель дает схожий AUC на тестовом наборе данных, так какую модель мне выбрать?
00
Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.
Data Science
Федеративное обучение – доля ROI
00
Вопрос или проблема Я читаю о федеративном обучении и у меня есть быстрый вопрос. 1) Я знаю, что в федеративном обучении обновления модели передаются на центральный сервер. 2) Все участники FL могут получить выгоду, потому что их модель видела большее
Data Science
Должен ли я повторять разделение на тестовую/обучающую выборки при повторении кросс-валидации K-складок?
01
Вопрос или проблема Я подгоняю регрессии случайного леса к своим данным и использую 10-кратную кросс-валидацию для оценки качества модели. При повторном запуске кросс-валидации я заметил, что результаты различаются между каждым запуском, иногда значительно.
Data Science
Случайный лес Sklearn онлайн-обучение
00
Вопрос или проблема У меня есть несколько миллионов данных, и классификатор не может завершить шаг кросс-валидации. Текущий код: X_train, y_train, X_val, y_val, X_test, y_test = load_dataset() print('Сажаем деревья...') clf = RandomForestClassifier(n_estimators=50
Data Science
Модель машинного обучения для прогнозирования временных рядов.
00
Вопрос или проблема Этот вопрос имеет три подчасти, ответ на каждую из которых, вероятно, не требует большого текста. Надеюсь, это нормально. Я пытаюсь понять прогнозирование временных рядов с использованием машинного обучения.
Data Science
Неявный выбор признаков
00
Вопрос или проблема Я слышал, что метод случайного леса и другие деревянистые машины применяют какой-то вид неявного отбора признаков. Мой вопрос: относится ли это также к таким методам, как SVM? Насколько я понимаю, выбор опорных векторов также является
Data Science
Ошибка получения объяснения предсказания с использованием shap_values при использовании конвейера scikit-learn?
00
Вопрос или проблема Я строю модель NLP для предсказания типа языка (C/C++/C#/Python…) для данного кода. Теперь мне нужно предоставить объяснение для предсказания моей модели. Например, следующий пользовательский ввод написан на Java, и модель это
Data Science
прогностическое моделирование с использованием метода случайного леса
01
Вопрос или проблема Я создал модель классификации случайного леса в scikit-learn, но не уверен, как завершить свой прогноз. Я построил модель, и она показывает хорошие результаты на тестовых данных. Я получаю среднюю точность 85%.
Data Science
точность случайного леса=0
00
Вопрос или проблема import os import joblib import numpy as np import pandas as pd from sklearn.metrics import accuracy_score, classification_report from tqdm import tqdm from PIL import Image from sklearn.cluster import KMeans # Функция для загрузки
Data Science
Что произойдет, если использовать модели прогнозирования на основе леса с одним деревом или оценщиком?
00
Вопрос или проблема Я экспериментирую с конформным прогнозированием по данным с высокой частотой, используя следующие модели регрессии на основе леса для задачи прогнозирования на обучающей выборке. Размер унивариантных (1D) временных рядов составляет
Data Science
Код Randomforest занимает больше времени на каждой итерации.
00
Вопрос или проблема У меня есть код предсказания, который запускает RandomForestRegressor и RandomForestClassifier. Я вызываю функции по 9 раз каждая, и они оптимизируются с помощью GridSearchCV. В первый раз выполнение заняло около 2 часов 20 минут
Data Science
Модель с 2 наборами данных: объедините временные ряды и статистику.
00
Вопрос или проблема Я новичок в моделировании данных, поэтому заранее извиняюсь, если использую неправильную терминологию. У меня есть стандартный набор временных рядов исторических цен, который используется для обучения/тестирования простой модели классификатора
Data Science
Можно ли использовать полиномиальные признаки в моделях логистической регрессии и случайного леса?
00
Вопрос или проблема Я работаю с Python, чтобы предсказать ответ на лечение 43 пациентов, используя 10 предикторов в качестве входных данных. Я заметил, что добавление полиномиальных признаков в мои модели дает практически идеальные результаты.
Data Science
Имеет ли смысл настройка гиперпараметров для случайных лесов?
00
Вопрос или проблема У меня есть задача бинарной классификации с существенным дисбалансом классов (99% отрицательных – 1% положительных). Я хочу разработать модель случайного леса для предсказаний, и после установления базового уровня (с параметрами
Data Science
Данные временных рядов в сочетании с несколькими признаками. Прогнозирование отклонения от среднего.
00
Вопрос или проблема Я пытаюсь предсказать процент посещаемости людей на занятиях в спортзале, которые были забронированы заранее. Это сильно зависит от времени дня и множества других факторов (идёт ли дождь, доля занятий, которые были забронированы вчера