cross-validation
Data Science
Вопрос или проблема Я новичок в машинном обучении. После нескольких дней изучения идей машинного обучения я пришел к некоторым выводам, которые приведены ниже (я рассматриваю только контролируемое обучение). Шаг 1: Разделение данных Перед обработкой данных
Data Science
Вопрос или проблема как я могу построить график своих результатов из csv файла gridsearch? clf = GridSearchCV(pipeline, parameters, cv=3, return_train_score=True) clf.fit(x, y) df = pd.DataFrame(clf.cv_results_) я пытаюсь получить график, похожий на тот
Data Science
Вопрос или проблема Я пытаюсь понять, какую проблему решает K-перекрестная проверка. Она, похоже, не решает проблему утечки данных, так как мы все равно тестируем на тестовых данных, а затем берем среднее значение всех тестовых фолдов и повторно настраиваем модель.
Data Science
Вопрос или проблема У меня есть более концептуальный вопрос, по которому я надеюсь получить обратную связь. Я пытаюсь запустить модель машинного обучения с бустингом для выявления подмножества важных предикторов для некоторого клинического состояния.
Data Science
Вопрос или проблема Я знаю, что мы отслеживаем потери на валидации для изучения переобучения. Мне известна кривая валидации, которая сначала уменьшается, а затем снова увеличивается. Увеличивающаяся часть означает, что модель начинает переобучаться.
Data Science
Вопрос или проблема Я читал о вариантах перекрестной проверки для временных рядов и нашел изменение, называемое заблокированной перекрестной проверкой. На странице, которую я читал, говорится следующее: “Тем не менее, это может привести к утечке информации
Data Science
Вопрос или проблема Для многометочной стратификации у нас есть хорошее решение, реализованное в scikit-multilearn, которое, как я полагаю, основано на алгоритме, представленном в статье “On the Stratification of Multi-label Data”
Data Science
Вопрос или проблема У меня возникла проблема с несбалансированным набором данных. Набор данных содержит 20% целей и 80% нецелевых. Я ожидаю, что матрица ошибок будет выглядеть так, когда я передам невидимые данные обученной модели.
Data Science
Вопрос или проблема Я работаю над задачей с контролируемым обучением с несбалансированными классами. У меня есть несколько вопросов о наилучшем способе обработки разбиения данных и недостающих значений. Мой текущий подход заключается в разбиении данных
Data Science
Вопрос или проблема Я тренировал свою CNN на 200 изображениях на класс для задачи классификации. Эта задача является задачей бинарной классификации. И с количеством тестовых данных (25 на класс) я получаю хорошие значения точности, полноты и прецизионности.
Data Science
Вопрос или проблема Раньше я использовал K-кратную кросс-валидацию для надежной оценки моих моделей машинного обучения. Но я также знаю о существовании метода бутстрэппинга для этой цели. Тем не менее, я не вижу основной разницы между ними с точки зрения
Data Science
Вопрос или проблема Я создаю класс, который следует следующему рабочему процессу: Выбор модели и подгонка Класс принимает список моделей и соответствующие им сетки гиперпараметров. Затем он выполняет стандартный процесс подгонки для каждой модели, используя
Data Science
Вопрос или проблема Я обучаю CNN, и я разделил набор данных на 70% для обучения, 20% для валидации и 10% для тестирования. Я хочу использовать этот набор валидации для ранней остановки, чтобы избежать переобучения модели на каждой итерации обучения.
Data Science
Вопрос или проблема Я выполнил перекрестную проверку с использованием k-складок и измерил полученную среднюю ошибку (RMSE) для каждой складки. Это было сделано с 5 складками, и 4 измерения дали схожие ошибки (между 10% и 12%), но одно из тестов дало ошибку 4%.
Data Science
Вопрос или проблема В данный момент я работаю над проектом машинного обучения. Это задача с контролируемым обучением. Моя цель – предсказать для заданных данных животного (содержание, размер, вес и т.д.) ингредиенты (энергия, витамины и т.
Data Science
Вопрос или проблема Если я использую XGBoost с GridSearchCV, как мне выбрать набор для оценки? Обратите внимание, что я имею в виду eval_set в параметрах модели. Моя текущая реализация использует GridSearchCV для оптимизации гиперпараметров, однако, если
Data Science
Вопрос или проблема Как разделить на обучающую и тестовую выборки с помощью train_test_split значений с плавающей запятой? Я использовал LabelEncoder, но у меня около 300К строк, и когда я использовал cross_val, я увидел ValueError: наименьший класс в
Data Science
Вопрос или проблема Существует существующий балл, состоящий из 10 параметров; каждый параметр имеет равный вес, и общий балл определяется путем суммирования баллов для каждого параметра. Я хочу попытаться уменьшить число параметров в этом балле, но сохранить их равный вес.
Data Science
Вопрос или проблема Я новичок в создании систем рекомендаций. Я использую библиотеку surpriselib для оценки своих рекомендаций. Все метрики точности хорошо поддерживаются в этой библиотеке. Но я также хочу вычислить коэффициент попаданий в своей топ n системе рекомендаций.
Data Science
Вопрос или проблема В последнее время я занимаюсь задачей бинарной классификации с несбалансированными данными, где данные упорядочены во времени. Я хотел бы проверить свою модель, используя тренировочные и валидационные разделы с одинаковым соотношением