overfitting - ответы на вопросы

Data Science

Избегание переобучения в неконтролируемом машинном обучении

00

Вопрос или проблема Я использую метод несупервизированного распознавания шаблонов для создания торговой стратегии. Я использую результаты совпадения шаблонов, чтобы решить, стоит ли входить в сделку. Для выбора лучших параметров шаблонов я запускаю несколько

Data Science

Почему моя ошибка на стадии валидации может перестать снижаться, в то время как ошибка на стадии обучения продолжает уменьшаться?

00

Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель

Data Science

Регрессия ограничивающих рамок без задачи классификации

00

Вопрос или проблема Я использую PyTorch для создания модели, которая обнаруживает определенные объекты на изображении. Я представил свою задачу как регрессию на ограничительные рамки, без какой-либо задачи классификации. Причина заключается в том, что

Data Science

Могу ли я использовать макро-отзыв, чтобы проверить, переобучается ли моя модель RF?

00

Вопрос или проблема У меня есть набор данных с 837377 наблюдениями (51% для обучения, 25% для валидации и 24% для тестирования) и 19 признаков. Я вычислил показатель полноты, используя среднее по макро для обучения, валидации и тестирования, и получил

Data Science

Переобученная модель дает схожий AUC на тестовом наборе данных, так какую модель мне выбрать?

00

Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.

Data Science

Как узнать, является ли моя регрессионная модель недообученной?

00

Вопрос или проблема Как мы оцениваем работу модели регрессии с определенным RMSE, если отсутствует метрика производительности, основанная на знаниях о предмете? Возможно, MAPE — это один из способов сравнить производительность моей модели на моем наборе

Data Science

Многозначная классификация – переобучение?

00

Вопрос или проблема Моя задача следующая: Вводить комбинации лекарств и выводить симптомы, связанные с почечной недостаточностью, из этих комбинаций. Как комбинации лекарств, так и симптомы, связанные с почечной недостаточностью, представлены в виде кодированного

Data Science

Сколько признаков мне выбрать при выполнении отбора признаков для регрессионных алгоритмов? Являются ли R2 и RMSE хорошими мерами успеха для проверки на переобучение?

00

Вопрос или проблема Контекст: В настоящее время я разрабатываю и сравниваю модели машинного обучения для прогнозирования данных о жилье. У меня около 32000 точек данных, 42 признака, и я предсказываю цену жилья. Я сравниваю регрессор случайного леса

Data Science

Моя модель является переобученной?

00

Вопрос или проблема Я использую наивный байесовский классификатор для классификации датасета 20 новостных групп. Моя точность на обучающем наборе составляет 97, а на тестовом наборе – 89. Моя модель переобучена? Если да, что я могу сделать, чтобы

Data Science

Как анализировать качество нейронной сети в случае переобучения?

00

Вопрос или проблема У меня есть нейронная сеть Keras, которая принимает изображения как входные и эталонные данные. Моя сеть демонстрирует переобучение (например, точность на обучающей выборке составляет около 80%, но точность на тестовой выборке лишь

Data Science

Обнаружение переобучения

00

Вопрос или проблема Я запутался, что мне следует учитывать, пытаясь выявить переобучение модели. Предположим, у меня есть задача классификации, основной метрикой которой является ROC-AUC. Я делю данные на обучающую и тестовую выборки.

Data Science

Переобучение в K-средних

00

Вопрос или проблема Как вы проверяете свои результаты на перенастройку в запуске k-средних? Некоторые люди говорят, что нужно использовать тренировочный набор. У меня есть около 1500 записей и примерно 20 полей. Вы можете сравнить производительность кластеризации

Data Science

Переобучение в TFBertForSequenceClassification от Huggingface

00

Вопрос или проблема Я использую TFBertForSequenceClassification от Huggingface для многометок «классификации твитов». Во время обучения модель достигает хорошей точности, но точность на валидации низкая. Я пытался решить проблему переобучения, использовав

Data Science

Каковы лучшие практики (современные решения) для определения, является ли ML-модель переобученной, недообученной или хорошо подогнанной (без диагностики плохой подгонки)?

00

Вопрос или проблема Я исследую несколько моделей машинного обучения для задачи прогнозирования на обучающем наборе. Мне интересно, есть ли простой способ определить/обнаружить хорошее/плохое обучение. Классический подход, как он используется для глубокого

Data Science

Что произойдет, если использовать модели прогнозирования на основе леса с одним деревом или оценщиком?

00

Вопрос или проблема Я экспериментирую с конформным прогнозированием по данным с высокой частотой, используя следующие модели регрессии на основе леса для задачи прогнозирования на обучающей выборке. Размер унивариантных (1D) временных рядов составляет

Data Science

Принуждение переобучения на простой модели

00

Вопрос или проблема Я пытаюсь провести очень простой эксперимент. Я хочу выучить тригонометрическую функцию (скажем, $sin(x)$) в интервале $[-2\pi, 2\pi]$. Я хочу усложнить задачу, добавив шум в тренировочный набор: вместо того чтобы иметь только одну

Data Science

model.evaluate дает низкие результаты?

00

Вопрос или проблема У меня есть набор изображений, в котором 6300 изображений и 5 классов. Извлеченные признаки и набор данных уменьшены до 256 признаков. Этот набор данных дает хорошие результаты (99%) при тестировании ANN с обратным распространением (tensorflow).

Data Science

Имеет ли смысл настройка гиперпараметров для случайных лесов?

00

Вопрос или проблема У меня есть задача бинарной классификации с существенным дисбалансом классов (99% отрицательных – 1% положительных). Я хочу разработать модель случайного леса для предсказаний, и после установления базового уровня (с параметрами

Data Science

Как улучшить производительность модели LSTM для прогнозирования погоды?

00

Вопрос или проблема Я предсказываю осадки, используя observational данные. Всего имеется 87,070 образцов данных, но только 1,885 образцов имеют осадки. Вот LSTM модель, которую я использую: class LstmModel(Model): def __init__(self, Lstm_units) ->

Data Science

Кривые обучения

01

Вопрос или проблема Я работаю над задачей многоклассовой классификации. Я хочу узнать, переобучается ли моя модель или недообучается. Я изучаю, как строить кривые обучения, и у меня есть 4 вопроса. 1.) Правильно ли я упорядочил шаги, как я сделал ниже, т.