cross-validation - ответы на вопросы - Page 2 of 3

Data Science

построить график результатов gridsearch из файла csv как?

00

Вопрос или проблема как я могу построить график своих результатов из csv файла gridsearch? clf = GridSearchCV(pipeline, parameters, cv=3, return_train_score=True) clf.fit(x, y) df = pd.DataFrame(clf.cv_results_) я пытаюсь получить график, похожий на тот

Data Science

Есть ли какой-либо лучший подход, чем K-сложение и вложенное K-сложение?

00

Вопрос или проблема Я пытаюсь понять, какую проблему решает K-перекрестная проверка. Она, похоже, не решает проблему утечки данных, так как мы все равно тестируем на тестовых данных, а затем берем среднее значение всех тестовых фолдов и повторно настраиваем модель.

Data Science

агрегация важности признаков

00

Вопрос или проблема У меня есть более концептуальный вопрос, по которому я надеюсь получить обратную связь. Я пытаюсь запустить модель машинного обучения с бустингом для выявления подмножества важных предикторов для некоторого клинического состояния.

Data Science

В чем разница между сглаживающейся кривой валидации и такой, которая снова увеличивается?

00

Вопрос или проблема Я знаю, что мы отслеживаем потери на валидации для изучения переобучения. Мне известна кривая валидации, которая сначала уменьшается, а затем снова увеличивается. Увеличивающаяся часть означает, что модель начинает переобучаться.

Data Science

Что такое блокированная кросс-валидация и зачем она нужна?

00

Вопрос или проблема Я читал о вариантах перекрестной проверки для временных рядов и нашел изменение, называемое заблокированной перекрестной проверкой. На странице, которую я читал, говорится следующее: “Тем не менее, это может привести к утечке информации

Data Science

Мультилайбл стратифицированное разделение на импортные группы с непересекающимися группами

00

Вопрос или проблема Для многометочной стратификации у нас есть хорошее решение, реализованное в scikit-multilearn, которое, как я полагаю, основано на алгоритме, представленном в статье “On the Stratification of Multi-label Data”

Data Science

Несоответствие между предсказаниями кросс-валидации и предсказаниями для unseen данных.

00

Вопрос или проблема У меня возникла проблема с несбалансированным набором данных. Набор данных содержит 20% целей и 80% нецелевых. Я ожидаю, что матрица ошибок будет выглядеть так, когда я передам невидимые данные обученной модели.

Data Science

Как выполнить кросс-валидацию и заполнить пропущенные значения с помощью KNNImputer?

00

Вопрос или проблема Я работаю над задачей с контролируемым обучением с несбалансированными классами. У меня есть несколько вопросов о наилучшем способе обработки разбиения данных и недостающих значений. Мой текущий подход заключается в разбиении данных

Data Science

Высокие метрики точности при небольшом (но одинаково выборочном) наборе данных означают хороший модель?

00

Вопрос или проблема Я тренировал свою CNN на 200 изображениях на класс для задачи классификации. Эта задача является задачей бинарной классификации. И с количеством тестовых данных (25 на класс) я получаю хорошие значения точности, полноты и прецизионности.

Data Science

В чем разница между бутстрэппингом и кросс-валидацией?

00

Вопрос или проблема Раньше я использовал K-кратную кросс-валидацию для надежной оценки моих моделей машинного обучения. Но я также знаю о существовании метода бутстрэппинга для этой цели. Тем не менее, я не вижу основной разницы между ними с точки зрения

Data Science

Кросс-валидация и разбиение на обучающую и тестовую выборки

00

Вопрос или проблема Я создаю класс, который следует следующему рабочему процессу: Выбор модели и подгонка Класс принимает список моделей и соответствующие им сетки гиперпараметров. Затем он выполняет стандартный процесс подгонки для каждой модели, используя

Data Science

Это хороший способ использовать отдельный валидационный набор с k-кратной перекрестной проверкой?

00

Вопрос или проблема Я обучаю CNN, и я разделил набор данных на 70% для обучения, 20% для валидации и 10% для тестирования. Я хочу использовать этот набор валидации для ранней остановки, чтобы избежать переобучения модели на каждой итерации обучения.

Data Science

Как анализировать результаты кросс-валидации для определения переобучения.

00

Вопрос или проблема Я выполнил перекрестную проверку с использованием k-складок и измерил полученную среднюю ошибку (RMSE) для каждой складки. Это было сделано с 5 складками, и 4 измерения дали схожие ошибки (между 10% и 12%), но одно из тестов дало ошибку 4%.

Data Science

Ошибка тестирования значительно выше ошибки обучения после сетевого поиска и кросс-валидации.

00

Вопрос или проблема В данный момент я работаю над проектом машинного обучения. Это задача с контролируемым обучением. Моя цель – предсказать для заданных данных животного (содержание, размер, вес и т.д.) ингредиенты (энергия, витамины и т.

Data Science

XGBoost CV путаница в том, как выбрать оценочный набор

00

Вопрос или проблема Если я использую XGBoost с GridSearchCV, как мне выбрать набор для оценки? Обратите внимание, что я имею в виду eval_set в параметрах модели. Моя текущая реализация использует GridSearchCV для оптимизации гиперпараметров, однако, если

Data Science

разделение на обучающую и тестовую выборки с помощью train_test_split для вещественных значений?

00

Вопрос или проблема Как разделить на обучающую и тестовую выборки с помощью train_test_split значений с плавающей запятой? Я использовал LabelEncoder, но у меня около 300К строк, и когда я использовал cross_val, я увидел ValueError: наименьший класс в

Data Science

Методы перебора признаков и кросс-валидация

00

Вопрос или проблема Существует существующий балл, состоящий из 10 параметров; каждый параметр имеет равный вес, и общий балл определяется путем суммирования баллов для каждого параметра. Я хочу попытаться уменьшить число параметров в этом балле, но сохранить их равный вес.

Data Science

Как провести кросс-валидацию Leave One Out для систем рекомендаций Топ n?

00

Вопрос или проблема Я новичок в создании систем рекомендаций. Я использую библиотеку surpriselib для оценки своих рекомендаций. Все метрики точности хорошо поддерживаются в этой библиотеке. Но я также хочу вычислить коэффициент попаданий в своей топ n системе рекомендаций.

Data Science

Стратифицированное разбиение временных рядов с одинаковым отношением дисбаланса

00

Вопрос или проблема В последнее время я занимаюсь задачей бинарной классификации с несбалансированными данными, где данные упорядочены во времени. Я хотел бы проверить свою модель, используя тренировочные и валидационные разделы с одинаковым соотношением

Data Science

Имеет ли смысл, что производительность XG Boost резко варьируется между двумя машинами при фиксированных гиперпараметрах?

00

Вопрос или проблема Я настраиваю гиперпараметры модели XGBoost и обнаруживаю, что в зависимости от того, тренирую ли я модель локально на своем компьютере или на AWS SageMaker, я получаю довольно разные результаты. Запуск перекрестной проверки локально