overfitting
Data Science
Вопрос или проблема У меня есть набор данных с 20 признаками и 65 образцами. Модели показывали плохие результаты, поэтому я использовал scipy.rbf для интерполяции и добавил 300 дополнительных образцов в набор данных. Производительность моделей значительно
Data Science
Вопрос или проблема Недавно я изучал модель Transformer, используя реализацию на Pytorch, но моя модель не сходилась. Я задумался, была ли проблема в моем коде или в чем-то еще. Поэтому я подумал, что если я “упрощу”
Data Science
Вопрос или проблема У меня есть огромный набор данных в формате CSV. Я передаю этот набор данных в последовательную модель Keras. У меня вопрос: может ли моя модель иметь количество единиц больше, чем количество входных признаков?
Data Science
Вопрос или проблема Допустим, моя языковая модель предварительно обучена на общем текстовом корпусе, и я хочу использовать её для какой-то конкретной задачи, для которой наборы данных также включены в общий корпус. Есть ли какие-либо опасения по поводу
Data Science
Вопрос или проблема Я, вероятно, сильно переобучил модель. Но мне было просто любопытно, что может вызвать такое поведение. Я продолжал обучение (Эпоха 1/50 не первая эпоха обучения этой модели). Вы можете видеть, что среднеквадратичная ошибка (потери) очень низкая.
Data Science
Вопрос или проблема У меня есть две последовательные модели, построенные с использованием Keras, которые обучаются на данных из CSV-файла. Вот как они построены # Первая модель model = Sequential() model.add(Input(shape=X_1.shape)) model.
Data Science
Вопрос или проблема Я нов в области RL и в настоящее время пытаюсь обучить онлайн модель DQN. Может ли онлайн модель переобучиться, поскольку она всегда учится? Как я могу понять, если это происходит? Переобучение – это значительное снижение производительности
Data Science
Вопрос или проблема Я пытаюсь понять, какую проблему решает K-перекрестная проверка. Она, похоже, не решает проблему утечки данных, так как мы все равно тестируем на тестовых данных, а затем берем среднее значение всех тестовых фолдов и повторно настраиваем модель.
Data Science
Вопрос или проблема Предположим, я участвую в соревновании по распознаванию изображений на Kaggle. Во-первых, я создаю разделение на обучающую и валидационную выборки и нахожу хорошие гиперпараметры для своей модели. Здесь критерием остановки является
Data Science
Вопрос или проблема Я работаю над проектом в области машинного обучения, в котором у меня есть два набора данных: X (признаки индивидуумов) и y (двоичные прогнозы: -1 или 1). Моя цель – предсказать y на основе признаков в X.
Data Science
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Вопрос или проблема Я выполнил перекрестную проверку с использованием k-складок и измерил полученную среднюю ошибку (RMSE) для каждой складки. Это было сделано с 5 складками, и 4 измерения дали схожие ошибки (между 10% и 12%), но одно из тестов дало ошибку 4%.
Data Science
Вопрос или проблема В данный момент я работаю над проектом машинного обучения. Это задача с контролируемым обучением. Моя цель – предсказать для заданных данных животного (содержание, размер, вес и т.д.) ингредиенты (энергия, витамины и т.
Data Science
Вопрос или проблема У меня есть неориентированный взвешенный граф, где веса ребер представляют собой вероятности. Большинство весов ребер равны 1 (они встречаются в 7 раз чаще, чем вторая по величине группа весов). Я использую этот граф для обучения векторного
Data Science
Вопрос или проблема Я пытаюсь обучить модель обнаружения объектов с помощью Mask-RCNN с Resnet50 в качестве основы. Я использую предобученные модели из библиотеки Torchvision PyTorch. У меня есть всего 10 изображений, которые я могу использовать для обучения.
Data Science
Вопрос или проблема У меня есть 21 наблюдение с более чем 10000 признаков. Проблема заключается в бинарной классификации, и данные сбалансированы. Используя метод выбора признаков, я нашел 5 признаков. Теперь у меня есть 21 наблюдение с 5 признаками.
Data Science
Вопрос или проблема Я применил Xgboost к своему набору данных, который включает около 50 000 наблюдений. Я разделил набор данных на 80/20 и использовал 5-кратную кросс-валидацию. Ниже приведены результаты: Обучающая выборка R$^2$: 0.
Data Science
Вопрос или проблема Результаты модели случайного леса, которую я настроил с помощью Gridsearch, следующие. Как вы думаете, есть ли у этой модели серьезная переобученность? Среднее значение целевых показателей составляет 850. R2: 0.
Data Science
Вопрос или проблема Результаты модели случайного леса, которую я настроил с помощью gridsearch, следующие. Я также построил кривую обучения для нее. Вы считаете, что эта модель имеет сильное переобучение? Среднее значение целевых переменных равно 850.
Data Science
Вопрос или проблема Я работаю над проектом, связанным с использованием моделей машинного обучения для классификации заданного медицинского датасета. Датасет, который вы можете найти здесь: https://zenodo.org/records/10885957, содержит данные о 10 000 пациентах.