Data Science
Переобучение в линейной регрессии
01
Вопрос или проблема Я только начинаю изучать машинное обучение, и мне трудно понять, как может произойти переобучение в модели линейной регрессии. Учитывая, что мы используем только 2 признака для обучения модели, как может плоская плоскость быть переобученной по набору данных?
Data Science
Избежание адского переобучения: введение регуляризации против увеличения объема данных для обучения
00
Вопрос или проблема Я пытаюсь выявить шумные интервалы в геомагнитных данных, используя логистическую регрессию и работая с библиотекой scikit-learn. Вот типичный спектр данных, с которыми я работаю: В этом примере данные между 16:00 и 20:00 UTC –
Data Science
Частая дообучаемость на новых данных может привести к переобучению?
00
Вопрос или проблема У меня есть модель бинарной классификации, которую я обучил на обучающем наборе. На валидационном наборе ее точность составляет примерно 85%. Я настроил раннее остановку, которая завершила обучение, когда потери на валидации увеличились.
Data Science
Переобучение в сиамской нейронной сети, связанное с проверкой подписей
00
Вопрос или проблема Я работаю над задачей верификации подписей, где мне нужно создать модель, которая даст среднюю достаточно хорошую точность валидации, чтобы получить полезную модель для тестирования (цель – выше 80%).
Data Science
Радиальная базисная функция для увеличения данных
00
Вопрос или проблема У меня есть набор данных с 20 признаками и 65 образцами. Модели показывали плохие результаты, поэтому я использовал scipy.rbf для интерполяции и добавил 300 дополнительных образцов в набор данных. Производительность моделей значительно
Data Science
Как заставить модель переобучиться
00
Вопрос или проблема Недавно я изучал модель Transformer, используя реализацию на Pytorch, но моя модель не сходилась. Я задумался, была ли проблема в моем коде или в чем-то еще. Поэтому я подумал, что если я “упрощу”
Data Science
Число единиц для первого слоя в модели Keras Sequential
00
Вопрос или проблема У меня есть огромный набор данных в формате CSV. Я передаю этот набор данных в последовательную модель Keras. У меня вопрос: может ли моя модель иметь количество единиц больше, чем количество входных признаков?
Data Science
Существует ли обеспокоенность по поводу того, что предобученная модель может переобучиться на задаче дообучения, если имеются пересекающиеся данные предобучения и обучения?
00
Вопрос или проблема Допустим, моя языковая модель предварительно обучена на общем текстовом корпусе, и я хочу использовать её для какой-то конкретной задачи, для которой наборы данных также включены в общий корпус. Есть ли какие-либо опасения по поводу
Data Science
Что вызывает взрывы в MSE при обучении?
00
Вопрос или проблема Я, вероятно, сильно переобучил модель. Но мне было просто любопытно, что может вызвать такое поведение. Я продолжал обучение (Эпоха 1/50 не первая эпоха обучения этой модели). Вы можете видеть, что среднеквадратичная ошибка (потери) очень низкая.
Data Science
Метрики точности, полноты и правильности существенно различаются между обучающими/валидационными данными и фактическими предсказаниями.
00
Вопрос или проблема У меня есть две последовательные модели, построенные с использованием Keras, которые обучаются на данных из CSV-файла. Вот как они построены # Первая модель model = Sequential() model.add(Input(shape=X_1.shape)) model.
Data Science
Может ли модель Online DQN переобучаться?
00
Вопрос или проблема Я нов в области RL и в настоящее время пытаюсь обучить онлайн модель DQN. Может ли онлайн модель переобучиться, поскольку она всегда учится? Как я могу понять, если это происходит? Переобучение – это значительное снижение производительности
Data Science
Есть ли какой-либо лучший подход, чем K-сложение и вложенное K-сложение?
00
Вопрос или проблема Я пытаюсь понять, какую проблему решает K-перекрестная проверка. Она, похоже, не решает проблему утечки данных, так как мы все равно тестируем на тестовых данных, а затем берем среднее значение всех тестовых фолдов и повторно настраиваем модель.
Data Science
Когда остановить обучение финальной модели?
00
Вопрос или проблема Предположим, я участвую в соревновании по распознаванию изображений на Kaggle. Во-первых, я создаю разделение на обучающую и валидационную выборки и нахожу хорошие гиперпараметры для своей модели. Здесь критерием остановки является
Data Science
Переобучение на валидационном наборе данных
00
Вопрос или проблема Я работаю над проектом в области машинного обучения, в котором у меня есть два набора данных: X (признаки индивидуумов) и y (двоичные прогнозы: -1 или 1). Моя цель – предсказать y на основе признаков в X.
Data Science
Почему мои модели имеют довольно высокую точность с небольшим обучающим набором данных?
00
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Как анализировать результаты кросс-валидации для определения переобучения.
00
Вопрос или проблема Я выполнил перекрестную проверку с использованием k-складок и измерил полученную среднюю ошибку (RMSE) для каждой складки. Это было сделано с 5 складками, и 4 измерения дали схожие ошибки (между 10% и 12%), но одно из тестов дало ошибку 4%.
Data Science
Ошибка тестирования значительно выше ошибки обучения после сетевого поиска и кросс-валидации.
00
Вопрос или проблема В данный момент я работаю над проектом машинного обучения. Это задача с контролируемым обучением. Моя цель – предсказать для заданных данных животного (содержание, размер, вес и т.д.) ингредиенты (энергия, витамины и т.
Data Science
Как обрабатывать неим сбалансированные веса ребер в графе для встраивания узлов и предсказания весов ребер?
00
Вопрос или проблема У меня есть неориентированный взвешенный граф, где веса ребер представляют собой вероятности. Большинство весов ребер равны 1 (они встречаются в 7 раз чаще, чем вторая по величине группа весов). Я использую этот граф для обучения векторного
Data Science
Обучение модели обнаружения объектов всего на 10 изображениях
00
Вопрос или проблема Я пытаюсь обучить модель обнаружения объектов с помощью Mask-RCNN с Resnet50 в качестве основы. Я использую предобученные модели из библиотеки Torchvision PyTorch. У меня есть всего 10 изображений, которые я могу использовать для обучения.
Data Science
Как обеспечить обобщение при наличии очень-очень маленьких данных?
00
Вопрос или проблема У меня есть 21 наблюдение с более чем 10000 признаков. Проблема заключается в бинарной классификации, и данные сбалансированы. Используя метод выбора признаков, я нашел 5 признаков. Теперь у меня есть 21 наблюдение с 5 признаками.