random-forest
Data Science
Вопрос или проблема 1º метод выводов: Away Attack = 0.152322 и Home Attack = 0.0 2º метод выводов: Away Attack = 0.928571 и Home Attack = 0.071429 Почему так? Точность 69%. У меня много признаков, и я выбрал только эти 2. # Рассчитать важность путем перестановки
Data Science
Вопрос или проблема У меня есть набор данных с 837377 наблюдениями (51% для обучения, 25% для валидации и 24% для тестирования) и 19 признаков. Я вычислил показатель полноты, используя среднее по макро для обучения, валидации и тестирования, и получил
Data Science
Вопрос или проблема В статье “Справедливые Леса: Регуляризированное Породение Деревьев для Минимизации Модели Отклонения” написано, что Мы предлагаем простой подход регуляризации для построения алгоритма индукции справедливого решения дерева.
Data Science
Вопрос или проблема По профессиональным причинам я хочу изучить и понять случайные леса. Я чувствую себя неуверенно в том, правильно ли я понимаю или совершаю логические ошибки. У меня есть набор данных с 15 миллионами записей, и я хочу сделать регрессию
Data Science
Вопрос или проблема Я пытаюсь запустить Random Forest на наборе данных, содержащем 4 синтетических признака с распределением от примерно -5 до 5. Невозможно сказать, что означают эти признаки. Также в наборе данных есть product_id, customer_id, product_category и customer_segment.
Data Science
Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.
Data Science
Вопрос или проблема Я читаю о федеративном обучении и у меня есть быстрый вопрос. 1) Я знаю, что в федеративном обучении обновления модели передаются на центральный сервер. 2) Все участники FL могут получить выгоду, потому что их модель видела большее
Data Science
Вопрос или проблема Я подгоняю регрессии случайного леса к своим данным и использую 10-кратную кросс-валидацию для оценки качества модели. При повторном запуске кросс-валидации я заметил, что результаты различаются между каждым запуском, иногда значительно.
Data Science
Вопрос или проблема У меня есть несколько миллионов данных, и классификатор не может завершить шаг кросс-валидации. Текущий код: X_train, y_train, X_val, y_val, X_test, y_test = load_dataset() print('Сажаем деревья...') clf = RandomForestClassifier(n_estimators=50
Data Science
Вопрос или проблема Этот вопрос имеет три подчасти, ответ на каждую из которых, вероятно, не требует большого текста. Надеюсь, это нормально. Я пытаюсь понять прогнозирование временных рядов с использованием машинного обучения.
Data Science
Вопрос или проблема Я слышал, что метод случайного леса и другие деревянистые машины применяют какой-то вид неявного отбора признаков. Мой вопрос: относится ли это также к таким методам, как SVM? Насколько я понимаю, выбор опорных векторов также является
Data Science
Вопрос или проблема Я строю модель NLP для предсказания типа языка (C/C++/C#/Python…) для данного кода. Теперь мне нужно предоставить объяснение для предсказания моей модели. Например, следующий пользовательский ввод написан на Java, и модель это
Data Science
Вопрос или проблема Я создал модель классификации случайного леса в scikit-learn, но не уверен, как завершить свой прогноз. Я построил модель, и она показывает хорошие результаты на тестовых данных. Я получаю среднюю точность 85%.
Data Science
Вопрос или проблема import os import joblib import numpy as np import pandas as pd from sklearn.metrics import accuracy_score, classification_report from tqdm import tqdm from PIL import Image from sklearn.cluster import KMeans # Функция для загрузки
Data Science
Вопрос или проблема Я экспериментирую с конформным прогнозированием по данным с высокой частотой, используя следующие модели регрессии на основе леса для задачи прогнозирования на обучающей выборке. Размер унивариантных (1D) временных рядов составляет
Data Science
Вопрос или проблема У меня есть код предсказания, который запускает RandomForestRegressor и RandomForestClassifier. Я вызываю функции по 9 раз каждая, и они оптимизируются с помощью GridSearchCV. В первый раз выполнение заняло около 2 часов 20 минут
Data Science
Вопрос или проблема Я новичок в моделировании данных, поэтому заранее извиняюсь, если использую неправильную терминологию. У меня есть стандартный набор временных рядов исторических цен, который используется для обучения/тестирования простой модели классификатора
Data Science
Вопрос или проблема Я работаю с Python, чтобы предсказать ответ на лечение 43 пациентов, используя 10 предикторов в качестве входных данных. Я заметил, что добавление полиномиальных признаков в мои модели дает практически идеальные результаты.
Data Science
Вопрос или проблема У меня есть задача бинарной классификации с существенным дисбалансом классов (99% отрицательных – 1% положительных). Я хочу разработать модель случайного леса для предсказаний, и после установления базового уровня (с параметрами
Data Science
Данные временных рядов в сочетании с несколькими признаками. Прогнозирование отклонения от среднего.
Вопрос или проблема Я пытаюсь предсказать процент посещаемости людей на занятиях в спортзале, которые были забронированы заранее. Это сильно зависит от времени дня и множества других факторов (идёт ли дождь, доля занятий, которые были забронированы вчера