Data Science
Избегание переобучения в неконтролируемом машинном обучении
00
Вопрос или проблема Я использую метод несупервизированного распознавания шаблонов для создания торговой стратегии. Я использую результаты совпадения шаблонов, чтобы решить, стоит ли входить в сделку. Для выбора лучших параметров шаблонов я запускаю несколько
Data Science
Почему моя ошибка на стадии валидации может перестать снижаться, в то время как ошибка на стадии обучения продолжает уменьшаться?
00
Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель
Data Science
Регрессия ограничивающих рамок без задачи классификации
00
Вопрос или проблема Я использую PyTorch для создания модели, которая обнаруживает определенные объекты на изображении. Я представил свою задачу как регрессию на ограничительные рамки, без какой-либо задачи классификации. Причина заключается в том, что
Data Science
Могу ли я использовать макро-отзыв, чтобы проверить, переобучается ли моя модель RF?
00
Вопрос или проблема У меня есть набор данных с 837377 наблюдениями (51% для обучения, 25% для валидации и 24% для тестирования) и 19 признаков. Я вычислил показатель полноты, используя среднее по макро для обучения, валидации и тестирования, и получил
Data Science
Переобученная модель дает схожий AUC на тестовом наборе данных, так какую модель мне выбрать?
00
Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.
Data Science
Как узнать, является ли моя регрессионная модель недообученной?
00
Вопрос или проблема Как мы оцениваем работу модели регрессии с определенным RMSE, если отсутствует метрика производительности, основанная на знаниях о предмете? Возможно, MAPE — это один из способов сравнить производительность моей модели на моем наборе
Data Science
Многозначная классификация – переобучение?
00
Вопрос или проблема Моя задача следующая: Вводить комбинации лекарств и выводить симптомы, связанные с почечной недостаточностью, из этих комбинаций. Как комбинации лекарств, так и симптомы, связанные с почечной недостаточностью, представлены в виде кодированного
Data Science
Сколько признаков мне выбрать при выполнении отбора признаков для регрессионных алгоритмов? Являются ли R2 и RMSE хорошими мерами успеха для проверки на переобучение?
00
Вопрос или проблема Контекст: В настоящее время я разрабатываю и сравниваю модели машинного обучения для прогнозирования данных о жилье. У меня около 32000 точек данных, 42 признака, и я предсказываю цену жилья. Я сравниваю регрессор случайного леса
Data Science
Моя модель является переобученной?
00
Вопрос или проблема Я использую наивный байесовский классификатор для классификации датасета 20 новостных групп. Моя точность на обучающем наборе составляет 97, а на тестовом наборе – 89. Моя модель переобучена? Если да, что я могу сделать, чтобы
Data Science
Как анализировать качество нейронной сети в случае переобучения?
00
Вопрос или проблема У меня есть нейронная сеть Keras, которая принимает изображения как входные и эталонные данные. Моя сеть демонстрирует переобучение (например, точность на обучающей выборке составляет около 80%, но точность на тестовой выборке лишь
Data Science
Обнаружение переобучения
00
Вопрос или проблема Я запутался, что мне следует учитывать, пытаясь выявить переобучение модели. Предположим, у меня есть задача классификации, основной метрикой которой является ROC-AUC. Я делю данные на обучающую и тестовую выборки.
Data Science
Переобучение в K-средних
00
Вопрос или проблема Как вы проверяете свои результаты на перенастройку в запуске k-средних? Некоторые люди говорят, что нужно использовать тренировочный набор. У меня есть около 1500 записей и примерно 20 полей. Вы можете сравнить производительность кластеризации
Data Science
Переобучение в TFBertForSequenceClassification от Huggingface
00
Вопрос или проблема Я использую TFBertForSequenceClassification от Huggingface для многометок «классификации твитов». Во время обучения модель достигает хорошей точности, но точность на валидации низкая. Я пытался решить проблему переобучения, использовав
Data Science
Каковы лучшие практики (современные решения) для определения, является ли ML-модель переобученной, недообученной или хорошо подогнанной (без диагностики плохой подгонки)?
00
Вопрос или проблема Я исследую несколько моделей машинного обучения для задачи прогнозирования на обучающем наборе. Мне интересно, есть ли простой способ определить/обнаружить хорошее/плохое обучение. Классический подход, как он используется для глубокого
Data Science
Что произойдет, если использовать модели прогнозирования на основе леса с одним деревом или оценщиком?
00
Вопрос или проблема Я экспериментирую с конформным прогнозированием по данным с высокой частотой, используя следующие модели регрессии на основе леса для задачи прогнозирования на обучающей выборке. Размер унивариантных (1D) временных рядов составляет
Data Science
Принуждение переобучения на простой модели
00
Вопрос или проблема Я пытаюсь провести очень простой эксперимент. Я хочу выучить тригонометрическую функцию (скажем, $sin(x)$) в интервале $[-2\pi, 2\pi]$. Я хочу усложнить задачу, добавив шум в тренировочный набор: вместо того чтобы иметь только одну
Data Science
model.evaluate дает низкие результаты?
00
Вопрос или проблема У меня есть набор изображений, в котором 6300 изображений и 5 классов. Извлеченные признаки и набор данных уменьшены до 256 признаков. Этот набор данных дает хорошие результаты (99%) при тестировании ANN с обратным распространением (tensorflow).
Data Science
Имеет ли смысл настройка гиперпараметров для случайных лесов?
00
Вопрос или проблема У меня есть задача бинарной классификации с существенным дисбалансом классов (99% отрицательных – 1% положительных). Я хочу разработать модель случайного леса для предсказаний, и после установления базового уровня (с параметрами
Data Science
Как улучшить производительность модели LSTM для прогнозирования погоды?
00
Вопрос или проблема Я предсказываю осадки, используя observational данные. Всего имеется 87,070 образцов данных, но только 1,885 образцов имеют осадки. Вот LSTM модель, которую я использую: class LstmModel(Model): def __init__(self, Lstm_units) ->
Data Science
Кривые обучения
01
Вопрос или проблема Я работаю над задачей многоклассовой классификации. Я хочу узнать, переобучается ли моя модель или недообучается. Я изучаю, как строить кривые обучения, и у меня есть 4 вопроса. 1.) Правильно ли я упорядочил шаги, как я сделал ниже, т.