Data Science
построить график результатов gridsearch из файла csv как?
00
Вопрос или проблема как я могу построить график своих результатов из csv файла gridsearch? clf = GridSearchCV(pipeline, parameters, cv=3, return_train_score=True) clf.fit(x, y) df = pd.DataFrame(clf.cv_results_) я пытаюсь получить график, похожий на тот
Data Science
Есть ли какой-либо лучший подход, чем K-сложение и вложенное K-сложение?
00
Вопрос или проблема Я пытаюсь понять, какую проблему решает K-перекрестная проверка. Она, похоже, не решает проблему утечки данных, так как мы все равно тестируем на тестовых данных, а затем берем среднее значение всех тестовых фолдов и повторно настраиваем модель.
Data Science
агрегация важности признаков
00
Вопрос или проблема У меня есть более концептуальный вопрос, по которому я надеюсь получить обратную связь. Я пытаюсь запустить модель машинного обучения с бустингом для выявления подмножества важных предикторов для некоторого клинического состояния.
Data Science
В чем разница между сглаживающейся кривой валидации и такой, которая снова увеличивается?
00
Вопрос или проблема Я знаю, что мы отслеживаем потери на валидации для изучения переобучения. Мне известна кривая валидации, которая сначала уменьшается, а затем снова увеличивается. Увеличивающаяся часть означает, что модель начинает переобучаться.
Data Science
Что такое блокированная кросс-валидация и зачем она нужна?
00
Вопрос или проблема Я читал о вариантах перекрестной проверки для временных рядов и нашел изменение, называемое заблокированной перекрестной проверкой. На странице, которую я читал, говорится следующее: “Тем не менее, это может привести к утечке информации
Data Science
Мультилайбл стратифицированное разделение на импортные группы с непересекающимися группами
00
Вопрос или проблема Для многометочной стратификации у нас есть хорошее решение, реализованное в scikit-multilearn, которое, как я полагаю, основано на алгоритме, представленном в статье “On the Stratification of Multi-label Data”
Data Science
Несоответствие между предсказаниями кросс-валидации и предсказаниями для unseen данных.
00
Вопрос или проблема У меня возникла проблема с несбалансированным набором данных. Набор данных содержит 20% целей и 80% нецелевых. Я ожидаю, что матрица ошибок будет выглядеть так, когда я передам невидимые данные обученной модели.
Data Science
Как выполнить кросс-валидацию и заполнить пропущенные значения с помощью KNNImputer?
00
Вопрос или проблема Я работаю над задачей с контролируемым обучением с несбалансированными классами. У меня есть несколько вопросов о наилучшем способе обработки разбиения данных и недостающих значений. Мой текущий подход заключается в разбиении данных
Data Science
Высокие метрики точности при небольшом (но одинаково выборочном) наборе данных означают хороший модель?
00
Вопрос или проблема Я тренировал свою CNN на 200 изображениях на класс для задачи классификации. Эта задача является задачей бинарной классификации. И с количеством тестовых данных (25 на класс) я получаю хорошие значения точности, полноты и прецизионности.
Data Science
В чем разница между бутстрэппингом и кросс-валидацией?
00
Вопрос или проблема Раньше я использовал K-кратную кросс-валидацию для надежной оценки моих моделей машинного обучения. Но я также знаю о существовании метода бутстрэппинга для этой цели. Тем не менее, я не вижу основной разницы между ними с точки зрения
Data Science
Кросс-валидация и разбиение на обучающую и тестовую выборки
00
Вопрос или проблема Я создаю класс, который следует следующему рабочему процессу: Выбор модели и подгонка Класс принимает список моделей и соответствующие им сетки гиперпараметров. Затем он выполняет стандартный процесс подгонки для каждой модели, используя
Data Science
Это хороший способ использовать отдельный валидационный набор с k-кратной перекрестной проверкой?
00
Вопрос или проблема Я обучаю CNN, и я разделил набор данных на 70% для обучения, 20% для валидации и 10% для тестирования. Я хочу использовать этот набор валидации для ранней остановки, чтобы избежать переобучения модели на каждой итерации обучения.
Data Science
Как анализировать результаты кросс-валидации для определения переобучения.
00
Вопрос или проблема Я выполнил перекрестную проверку с использованием k-складок и измерил полученную среднюю ошибку (RMSE) для каждой складки. Это было сделано с 5 складками, и 4 измерения дали схожие ошибки (между 10% и 12%), но одно из тестов дало ошибку 4%.
Data Science
Ошибка тестирования значительно выше ошибки обучения после сетевого поиска и кросс-валидации.
00
Вопрос или проблема В данный момент я работаю над проектом машинного обучения. Это задача с контролируемым обучением. Моя цель – предсказать для заданных данных животного (содержание, размер, вес и т.д.) ингредиенты (энергия, витамины и т.
Data Science
XGBoost CV путаница в том, как выбрать оценочный набор
00
Вопрос или проблема Если я использую XGBoost с GridSearchCV, как мне выбрать набор для оценки? Обратите внимание, что я имею в виду eval_set в параметрах модели. Моя текущая реализация использует GridSearchCV для оптимизации гиперпараметров, однако, если
Data Science
разделение на обучающую и тестовую выборки с помощью train_test_split для вещественных значений?
00
Вопрос или проблема Как разделить на обучающую и тестовую выборки с помощью train_test_split значений с плавающей запятой? Я использовал LabelEncoder, но у меня около 300К строк, и когда я использовал cross_val, я увидел ValueError: наименьший класс в
Data Science
Методы перебора признаков и кросс-валидация
00
Вопрос или проблема Существует существующий балл, состоящий из 10 параметров; каждый параметр имеет равный вес, и общий балл определяется путем суммирования баллов для каждого параметра. Я хочу попытаться уменьшить число параметров в этом балле, но сохранить их равный вес.
Data Science
Как провести кросс-валидацию Leave One Out для систем рекомендаций Топ n?
00
Вопрос или проблема Я новичок в создании систем рекомендаций. Я использую библиотеку surpriselib для оценки своих рекомендаций. Все метрики точности хорошо поддерживаются в этой библиотеке. Но я также хочу вычислить коэффициент попаданий в своей топ n системе рекомендаций.
Data Science
Стратифицированное разбиение временных рядов с одинаковым отношением дисбаланса
00
Вопрос или проблема В последнее время я занимаюсь задачей бинарной классификации с несбалансированными данными, где данные упорядочены во времени. Я хотел бы проверить свою модель, используя тренировочные и валидационные разделы с одинаковым соотношением
Data Science
Имеет ли смысл, что производительность XG Boost резко варьируется между двумя машинами при фиксированных гиперпараметрах?
00
Вопрос или проблема Я настраиваю гиперпараметры модели XGBoost и обнаруживаю, что в зависимости от того, тренирую ли я модель локально на своем компьютере или на AWS SageMaker, я получаю довольно разные результаты. Запуск перекрестной проверки локально