Data Science
Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?
00
Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный
Data Science
Почему перекрёстная проверка имеет пессимистичный уклон?
00
Вопрос или проблема В моих конспектах курса указаны две причины, почему кросс-валидация имеет пессимистичный уклон. Первая причина заключается в том, что точность измеряется для моделей, которые обучены на меньшем количестве данных, что я понимаю.
Data Science
Могу ли я применять разные гиперпараметры для разных временных интервалов скользящего окна?
00
Вопрос или проблема Вопрос Могу ли я применять различные гиперпараметры для разных наборов данных для обучения? Я вижу смысл в использовании общих параметров, но не вижу смысла в использовании общих гиперпараметров. Преимущество использования общих параметров
Data Science
Как правильно реализовать случайную недовыборку во время кросс-валидации в Orange
00
Вопрос или проблема Я работаю над существенно несбалансированным набором данных для обнаружения мошенничества (класс 0: 284315 экземпляров, класс 1: 492 экземпляра) и пытаюсь правильно реализовать случайную недовыборку во время перекрестной проверки в Orange.
Data Science
Как непрерывно обучать и проверять модель, которая влияет на свои собственные будущие данные?
00
Вопрос или проблема Мы работаем с онлайн-рынком. Наша задача – предсказать, будут ли определенные продукты прибыльными для нашего рынка в ближайшем будущем (горизонт – один месяц). Например, рассмотрим 2 продукта: Игрушка Жираф (предсказана неприбыльной)
Data Science
Извлечение валидационной выборки из тестовой выборки
00
Вопрос или проблема Я строю 3 модели нейронных сетей на наборе данных, который уже разделен на обучающую и тестовую выборки. В ходе анализа я обнаружил, что этот набор данных содержит значения в тестовом наборе, которые не существуют в обучающем наборе.
Data Science
Является ли этот случайный лес логически правильным и корректно реализованным с помощью R и gbm?
00
Вопрос или проблема По профессиональным причинам я хочу изучить и понять случайные леса. Я чувствую себя неуверенно в том, правильно ли я понимаю или совершаю логические ошибки. У меня есть набор данных с 15 миллионами записей, и я хочу сделать регрессию
Data Science
Слоение нейронных сетей с перекрёстной проверкой
00
Вопрос или проблема Я пытаюсь реализовать модель стекинга для задачи машинного обучения и испытываю трудности с определением стратегии кросс-валидации. До сих пор я использовал кросс-валидацию с 10 разбиениями для всех моих моделей и хотел бы продолжить
Data Science
Как узнать, является ли моя регрессионная модель недообученной?
00
Вопрос или проблема Как мы оцениваем работу модели регрессии с определенным RMSE, если отсутствует метрика производительности, основанная на знаниях о предмете? Возможно, MAPE — это один из способов сравнить производительность моей модели на моем наборе
Data Science
Кросс-валидация с удержанием одной пары.
00
Вопрос или проблема Я пытаюсь обучить и проверить свои наборы данных, которые содержат 17 наборов данных. Я разделил их так: 15 для обучения и 2 для проверки. В процессе я обучаюсь на 15 наборах данных и использую сгенерированную модель, чтобы предсказать
Data Science
Почему GridSearchCV возвращает nan?
00
Вопрос или проблема Я использую gridsearchcv для настройки параметров моей модели, а также использую pipeline и кросс-валидацию. Когда я запускаю модель для настройки параметра XGBoost, она возвращает nan. Однако, когда я использую тот же код для других
Data Science
Интерпретация кривой валидации
00
Вопрос или проблема Я читал о функции validation_curve из scikit learn. Когда я запускаю эту функцию, она занимает слишком много времени. Поэтому я вместо этого строю графики результатов из grid search, что, кажется, намного быстрее.
Data Science
Должен ли я обучать модель на всей выборке в системах рекомендаций?
00
Вопрос или проблема После прочтения нескольких учебников и статей о рекомендательных системах, я не могу понять, следует ли мне разбивать набор данных на обучающую и тестовую выборки или использовать весь набор данных, чтобы позволить модели запомнить
Data Science
Становится ли с точки зрения статистики неправильно корректировать по полу и расе, а затем делать подгруппы на их основе в R?
00
Вопрос или проблема Я хочу узнать ваше мнение: Я провожу анализ подгрупп по ранней смертности (Результат), основанный на Переливании (С УЧЕТОМ как Пола, так и РАСЫ), и получил результаты, показывающие, что переливание ассоциировано с более высокой смертностью
Data Science
Кривые обучения
01
Вопрос или проблема Я работаю над задачей многоклассовой классификации. Я хочу узнать, переобучается ли моя модель или недообучается. Я изучаю, как строить кривые обучения, и у меня есть 4 вопроса. 1.) Правильно ли я упорядочил шаги, как я сделал ниже, т.
Data Science
Путаница в применении k-кратной кросс-валидации к набору данных
00
Вопрос или проблема У меня есть набор данных, который уже разделен на 10 частей, при этом каждая часть содержит обучающие, валидационные и тестовые наборы. Я не понимаю, как применить 10-кратную кросс-валидацию к этому набору данных.
Data Science
Нужен совет по кросс-валидации для получения оптимального λ в Лассо.
00
Вопрос или проблема Я относительно новичок в машинном обучении, и любые предложения и исправления кода будут большой помощью. Я использую Lasso для отбора признаков и хочу выбрать лямбда, которая обеспечивает наименьшую ошибку.
Data Science
Запрос относительно неожидного резкого повышения точности модели машинного обучения
00
Вопрос или проблема Я реализовал все основные модели машинного обучения (Логистическая регрессия, Наивный байес, SVM, KNN, Дерево решений, Случайный лес, Ада Буст и XGBoost) на своем датасете. Мои оценки стратифицированной кросс-валидации находятся в диапазоне от 70% до 80%.
Data Science
Вложенная кросс-валидация и доверительные интервалы
00
Вопрос или проблема Надеюсь, кто-то сможет мне помочь разобраться с этим. Я наткнулся на множество различных ресурсов о вложенной кросс-валидации, но, похоже, я запутался в том, как выбрать модель и правильно построить доверительные интервалы для процесса обучения.
Data Science
Когда я использую линейную регрессию в машинном обучении, выбор переменных аналогичен выбору параметров настройки?
00
Вопрос или проблема Я новичок в машинном обучении. После нескольких дней изучения идей машинного обучения я пришел к некоторым выводам, которые приведены ниже (я рассматриваю только контролируемое обучение). Шаг 1: Разделение данных Перед обработкой данных