overfitting
Data Science
Вопрос или проблема Я использую метод несупервизированного распознавания шаблонов для создания торговой стратегии. Я использую результаты совпадения шаблонов, чтобы решить, стоит ли входить в сделку. Для выбора лучших параметров шаблонов я запускаю несколько
Data Science
Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель
Data Science
Вопрос или проблема Я использую PyTorch для создания модели, которая обнаруживает определенные объекты на изображении. Я представил свою задачу как регрессию на ограничительные рамки, без какой-либо задачи классификации. Причина заключается в том, что
Data Science
Вопрос или проблема У меня есть набор данных с 837377 наблюдениями (51% для обучения, 25% для валидации и 24% для тестирования) и 19 признаков. Я вычислил показатель полноты, используя среднее по макро для обучения, валидации и тестирования, и получил
Data Science
Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.
Data Science
Вопрос или проблема Как мы оцениваем работу модели регрессии с определенным RMSE, если отсутствует метрика производительности, основанная на знаниях о предмете? Возможно, MAPE — это один из способов сравнить производительность моей модели на моем наборе
Data Science
Вопрос или проблема Моя задача следующая: Вводить комбинации лекарств и выводить симптомы, связанные с почечной недостаточностью, из этих комбинаций. Как комбинации лекарств, так и симптомы, связанные с почечной недостаточностью, представлены в виде кодированного
Data Science
Вопрос или проблема Контекст: В настоящее время я разрабатываю и сравниваю модели машинного обучения для прогнозирования данных о жилье. У меня около 32000 точек данных, 42 признака, и я предсказываю цену жилья. Я сравниваю регрессор случайного леса
Data Science
Вопрос или проблема Я использую наивный байесовский классификатор для классификации датасета 20 новостных групп. Моя точность на обучающем наборе составляет 97, а на тестовом наборе – 89. Моя модель переобучена? Если да, что я могу сделать, чтобы
Data Science
Вопрос или проблема У меня есть нейронная сеть Keras, которая принимает изображения как входные и эталонные данные. Моя сеть демонстрирует переобучение (например, точность на обучающей выборке составляет около 80%, но точность на тестовой выборке лишь
Data Science
Вопрос или проблема Я запутался, что мне следует учитывать, пытаясь выявить переобучение модели. Предположим, у меня есть задача классификации, основной метрикой которой является ROC-AUC. Я делю данные на обучающую и тестовую выборки.
Data Science
Вопрос или проблема Как вы проверяете свои результаты на перенастройку в запуске k-средних? Некоторые люди говорят, что нужно использовать тренировочный набор. У меня есть около 1500 записей и примерно 20 полей. Вы можете сравнить производительность кластеризации
Data Science
Вопрос или проблема Я использую TFBertForSequenceClassification от Huggingface для многометок «классификации твитов». Во время обучения модель достигает хорошей точности, но точность на валидации низкая. Я пытался решить проблему переобучения, использовав
Data Science
Вопрос или проблема Я исследую несколько моделей машинного обучения для задачи прогнозирования на обучающем наборе. Мне интересно, есть ли простой способ определить/обнаружить хорошее/плохое обучение. Классический подход, как он используется для глубокого
Data Science
Вопрос или проблема Я экспериментирую с конформным прогнозированием по данным с высокой частотой, используя следующие модели регрессии на основе леса для задачи прогнозирования на обучающей выборке. Размер унивариантных (1D) временных рядов составляет
Data Science
Вопрос или проблема Я пытаюсь провести очень простой эксперимент. Я хочу выучить тригонометрическую функцию (скажем, $sin(x)$) в интервале $[-2\pi, 2\pi]$. Я хочу усложнить задачу, добавив шум в тренировочный набор: вместо того чтобы иметь только одну
Data Science
Вопрос или проблема У меня есть набор изображений, в котором 6300 изображений и 5 классов. Извлеченные признаки и набор данных уменьшены до 256 признаков. Этот набор данных дает хорошие результаты (99%) при тестировании ANN с обратным распространением (tensorflow).
Data Science
Вопрос или проблема У меня есть задача бинарной классификации с существенным дисбалансом классов (99% отрицательных – 1% положительных). Я хочу разработать модель случайного леса для предсказаний, и после установления базового уровня (с параметрами
Data Science
Вопрос или проблема Я предсказываю осадки, используя observational данные. Всего имеется 87,070 образцов данных, но только 1,885 образцов имеют осадки. Вот LSTM модель, которую я использую: class LstmModel(Model): def __init__(self, Lstm_units) ->
Data Science
Вопрос или проблема Я работаю над задачей многоклассовой классификации. Я хочу узнать, переобучается ли моя модель или недообучается. Я изучаю, как строить кривые обучения, и у меня есть 4 вопроса. 1.) Правильно ли я упорядочил шаги, как я сделал ниже, т.