cross-validation - ответы на вопросы

Data Science

Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?

00

Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный

Data Science

Почему перекрёстная проверка имеет пессимистичный уклон?

00

Вопрос или проблема В моих конспектах курса указаны две причины, почему кросс-валидация имеет пессимистичный уклон. Первая причина заключается в том, что точность измеряется для моделей, которые обучены на меньшем количестве данных, что я понимаю.

Data Science

Могу ли я применять разные гиперпараметры для разных временных интервалов скользящего окна?

00

Вопрос или проблема Вопрос Могу ли я применять различные гиперпараметры для разных наборов данных для обучения? Я вижу смысл в использовании общих параметров, но не вижу смысла в использовании общих гиперпараметров. Преимущество использования общих параметров

Data Science

Как правильно реализовать случайную недовыборку во время кросс-валидации в Orange

00

Вопрос или проблема Я работаю над существенно несбалансированным набором данных для обнаружения мошенничества (класс 0: 284315 экземпляров, класс 1: 492 экземпляра) и пытаюсь правильно реализовать случайную недовыборку во время перекрестной проверки в Orange.

Data Science

Как непрерывно обучать и проверять модель, которая влияет на свои собственные будущие данные?

00

Вопрос или проблема Мы работаем с онлайн-рынком. Наша задача – предсказать, будут ли определенные продукты прибыльными для нашего рынка в ближайшем будущем (горизонт – один месяц). Например, рассмотрим 2 продукта: Игрушка Жираф (предсказана неприбыльной)

Data Science

Извлечение валидационной выборки из тестовой выборки

00

Вопрос или проблема Я строю 3 модели нейронных сетей на наборе данных, который уже разделен на обучающую и тестовую выборки. В ходе анализа я обнаружил, что этот набор данных содержит значения в тестовом наборе, которые не существуют в обучающем наборе.

Data Science

Является ли этот случайный лес логически правильным и корректно реализованным с помощью R и gbm?

00

Вопрос или проблема По профессиональным причинам я хочу изучить и понять случайные леса. Я чувствую себя неуверенно в том, правильно ли я понимаю или совершаю логические ошибки. У меня есть набор данных с 15 миллионами записей, и я хочу сделать регрессию

Data Science

Слоение нейронных сетей с перекрёстной проверкой

00

Вопрос или проблема Я пытаюсь реализовать модель стекинга для задачи машинного обучения и испытываю трудности с определением стратегии кросс-валидации. До сих пор я использовал кросс-валидацию с 10 разбиениями для всех моих моделей и хотел бы продолжить

Data Science

Как узнать, является ли моя регрессионная модель недообученной?

00

Вопрос или проблема Как мы оцениваем работу модели регрессии с определенным RMSE, если отсутствует метрика производительности, основанная на знаниях о предмете? Возможно, MAPE — это один из способов сравнить производительность моей модели на моем наборе

Data Science

Кросс-валидация с удержанием одной пары.

00

Вопрос или проблема Я пытаюсь обучить и проверить свои наборы данных, которые содержат 17 наборов данных. Я разделил их так: 15 для обучения и 2 для проверки. В процессе я обучаюсь на 15 наборах данных и использую сгенерированную модель, чтобы предсказать

Data Science

Почему GridSearchCV возвращает nan?

00

Вопрос или проблема Я использую gridsearchcv для настройки параметров моей модели, а также использую pipeline и кросс-валидацию. Когда я запускаю модель для настройки параметра XGBoost, она возвращает nan. Однако, когда я использую тот же код для других

Data Science

Интерпретация кривой валидации

00

Вопрос или проблема Я читал о функции validation_curve из scikit learn. Когда я запускаю эту функцию, она занимает слишком много времени. Поэтому я вместо этого строю графики результатов из grid search, что, кажется, намного быстрее.

Data Science

Должен ли я обучать модель на всей выборке в системах рекомендаций?

00

Вопрос или проблема После прочтения нескольких учебников и статей о рекомендательных системах, я не могу понять, следует ли мне разбивать набор данных на обучающую и тестовую выборки или использовать весь набор данных, чтобы позволить модели запомнить

Data Science

Становится ли с точки зрения статистики неправильно корректировать по полу и расе, а затем делать подгруппы на их основе в R?

00

Вопрос или проблема Я хочу узнать ваше мнение: Я провожу анализ подгрупп по ранней смертности (Результат), основанный на Переливании (С УЧЕТОМ как Пола, так и РАСЫ), и получил результаты, показывающие, что переливание ассоциировано с более высокой смертностью

Data Science

Кривые обучения

01

Вопрос или проблема Я работаю над задачей многоклассовой классификации. Я хочу узнать, переобучается ли моя модель или недообучается. Я изучаю, как строить кривые обучения, и у меня есть 4 вопроса. 1.) Правильно ли я упорядочил шаги, как я сделал ниже, т.

Data Science

Путаница в применении k-кратной кросс-валидации к набору данных

00

Вопрос или проблема У меня есть набор данных, который уже разделен на 10 частей, при этом каждая часть содержит обучающие, валидационные и тестовые наборы. Я не понимаю, как применить 10-кратную кросс-валидацию к этому набору данных.

Data Science

Нужен совет по кросс-валидации для получения оптимального λ в Лассо.

00

Вопрос или проблема Я относительно новичок в машинном обучении, и любые предложения и исправления кода будут большой помощью. Я использую Lasso для отбора признаков и хочу выбрать лямбда, которая обеспечивает наименьшую ошибку.

Data Science

Запрос относительно неожидного резкого повышения точности модели машинного обучения

00

Вопрос или проблема Я реализовал все основные модели машинного обучения (Логистическая регрессия, Наивный байес, SVM, KNN, Дерево решений, Случайный лес, Ада Буст и XGBoost) на своем датасете. Мои оценки стратифицированной кросс-валидации находятся в диапазоне от 70% до 80%.

Data Science

Вложенная кросс-валидация и доверительные интервалы

00

Вопрос или проблема Надеюсь, кто-то сможет мне помочь разобраться с этим. Я наткнулся на множество различных ресурсов о вложенной кросс-валидации, но, похоже, я запутался в том, как выбрать модель и правильно построить доверительные интервалы для процесса обучения.

Data Science

Когда я использую линейную регрессию в машинном обучении, выбор переменных аналогичен выбору параметров настройки?

00

Вопрос или проблема Я новичок в машинном обучении. После нескольких дней изучения идей машинного обучения я пришел к некоторым выводам, которые приведены ниже (я рассматриваю только контролируемое обучение). Шаг 1: Разделение данных Перед обработкой данных