Data Science
В чем разница между оценкой GridSearchCrossValidation и оценкой на тестовом наборе данных?
00
Вопрос или проблема Я занимаюсь классификацией с использованием Python. Я использую класс GridSearchCV, этот класс имеет атрибут best_score_, определяемый как “Средняя кросс-валидиционная оценка лучшего оценщика”. С этим классом я также могу
Data Science
Если min_sample_leaf больше, чем min_sample_split в дереве решений, будет ли это проблемой?
00
Вопрос или проблема Я настраиваю гиперпараметры дерева решений для набора данных из 550 образцов. Так как я относительно новичок в настройке гиперпараметров (я учусь и реализую это), я запутался, какие значения установить для гиперпараметров, таких как
Data Science
GridSearch CV: Подходящие метрики оценки для несбалансированных наборов данных
00
Вопрос или проблема Я новичок в машинном обучении. Это мой $1^{st}$ проект в области машинного обучения, и я работаю над классификацией на несбалансированном наборе данных. В целевой переменной также имеется несколько классов.
Data Science
Запрос относительно неожидного резкого повышения точности модели машинного обучения
00
Вопрос или проблема Я реализовал все основные модели машинного обучения (Логистическая регрессия, Наивный байес, SVM, KNN, Дерево решений, Случайный лес, Ада Буст и XGBoost) на своем датасете. Мои оценки стратифицированной кросс-валидации находятся в диапазоне от 70% до 80%.
Data Science
построить график результатов gridsearch из файла csv как?
00
Вопрос или проблема как я могу построить график своих результатов из csv файла gridsearch? clf = GridSearchCV(pipeline, parameters, cv=3, return_train_score=True) clf.fit(x, y) df = pd.DataFrame(clf.cv_results_) я пытаюсь получить график, похожий на тот
Data Science
Кросс-валидация и разбиение на обучающую и тестовую выборки
00
Вопрос или проблема Я создаю класс, который следует следующему рабочему процессу: Выбор модели и подгонка Класс принимает список моделей и соответствующие им сетки гиперпараметров. Затем он выполняет стандартный процесс подгонки для каждой модели, используя
Data Science
Ошибка тестирования значительно выше ошибки обучения после сетевого поиска и кросс-валидации.
00
Вопрос или проблема В данный момент я работаю над проектом машинного обучения. Это задача с контролируемым обучением. Моя цель – предсказать для заданных данных животного (содержание, размер, вес и т.д.) ингредиенты (энергия, витамины и т.
Data Science
Почему модель Light GBM даёт разные результаты при тестировании?
00
Вопрос или проблема Используя регрессор Light GBM, я обучил свои данные и, используя Grid Search, получил лучшие параметры, но при тестировании с этими параметрами я получаю разные результаты каждый раз, что означает, что модель выдает разные результаты
Data Science
Методы перебора признаков и кросс-валидация
00
Вопрос или проблема Существует существующий балл, состоящий из 10 параметров; каждый параметр имеет равный вес, и общий балл определяется путем суммирования баллов для каждого параметра. Я хочу попытаться уменьшить число параметров в этом балле, но сохранить их равный вес.
Data Science
Параметры для настройки MLP классификатора с помощью Gridsearch CV?
00
Вопрос или проблема Я хочу настроить параметры классификатора MLP из sklearn, но не знаю, какие из них настраивать и сколько вариантов предложить? Например, это скорость обучения. Должен ли я указать значения [.0001, .001, .01, .1, .2, .3]?
Data Science
Показывает ли этот результат переобучение?
00
Вопрос или проблема Результаты модели случайного леса, которую я настроил с помощью Gridsearch, следующие. Как вы думаете, есть ли у этой модели серьезная переобученность? Среднее значение целевых показателей составляет 850. R2: 0.
Data Science
Вопрос о грид-поиске и KFold
00
Вопрос или проблема Я пробую пример, над которым я тренируюсь на огромном наборе данных в 5 миллионов (только 4 признака) строк с помощью Cudf и CUml, и я использую SGD логистическую регрессию, потому что я должен предсказать, болен ли пациент или нет.
Data Science
Показывает ли этот результат переобучение?
00
Вопрос или проблема Результаты модели случайного леса, которую я настроил с помощью gridsearch, следующие. Я также построил кривую обучения для нее. Вы считаете, что эта модель имеет сильное переобучение? Среднее значение целевых переменных равно 850.
Data Science
RandomizedSearchCV(n_iter=10) не останавливается после обучения 10 моделей.
00
Вопрос или проблема Я использую RandomizedSearchCV для оптимизации гиперпараметров. Когда я запускаю модель, она показывает оценки для каждой тренировки модели. Проблема в том, что она обучает гораздо больше 10 моделей, в то время как я ожидаю, что будет