Многозначная классификация – переобучение?

Question 1

Моя задача следующая:

Вводить комбинации лекарств и выводить симптомы, связанные с почечной недостаточностью, из этих комбинаций.

Как комбинации лекарств, так и симптомы, связанные с почечной недостаточностью, представлены в виде кодированного методом one-hot вектора (например, человек, у которого наблюдаются симптомы 1 и 3 из 4 возможных, представлен как [1,0,1,0]).

На данный момент я пропускал данные через следующие модели, и они произвели этот интересный график. Левый график показывает потери на обучении и валидации моделей по эпохам, а правый график отображает точность на обучении и валидации по эпохам.

Почти ясно из левого графика, что в базовой модели происходит переобучение, так как потери на обучении уменьшаются, а потери на валидации увеличиваются по эпохам. Однако график точности на графике свидетельствует о том, что точность на валидации продолжает улучшаться, несмотря на увеличение потерь на валидации.

После добавления dropout и L2 регуляризации (Baseline Reg), потери на валидации не увеличиваются так сильно, что, кажется, решает проблему переобучения, но точность становится очень нестабильной и в среднем хуже, чем в базовой модели.

Вопрос следующий:
Верна ли моя интуиция, что результаты обеих моделей показывают переобучение и стоит ли продолжать попытки уменьшить этот эффект?

Заранее спасибо!

Архитектура моделей приведена ниже:

Model: "baseline"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense_6 (Dense)              (884, 800)                603200    
_________________________________________________________________
dense_7 (Dense)              (884, 800)                640800    
_________________________________________________________________
dense_8 (Dense)              (884, 4)                  3204      
=================================================================
Total params: 1,247,204
Trainable params: 1,247,204
Non-trainable params: 0
_________________________________________________________________

Model: "baseline_reg"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense_9 (Dense)              (884, 800)                603200    
_________________________________________________________________
dropout (Dropout)            (884, 800)                0         
_________________________________________________________________
dense_10 (Dense)             (884, 800)                640800    
_________________________________________________________________
dense_11 (Dense)             (884, 4)                  3204      
=================================================================
Total params: 1,247,204
Trainable params: 1,247,204
Non-trainable params: 0
_________________________________________________________________

Question 2

Точность — не самый полезный способ оценки мульти-лейбл классификации, что может приводить к вашим непоследовательным результатам. Учитывая важность области, метрика точного соответствия может быть более подходящей для оценки.

Многозначная классификация – переобучение?

Вопрос или проблема

Ответ или решение