Должен ли изменяться распределение весов при тонкой настройке классификатора на основе трансформеров?

Question 1

Я использую предобученную модель DistilBERT от Huggingface с пользовательской классификационной головой, которая почти такая же, как в референсной реализации:

class PretrainedTransformer(nn.Module):
    def __init__(
        self, target_classes):
        super().__init__()
        base_model_output_shape=768
        self.base_model = DistilBertModel.from_pretrained("distilbert-base-uncased")
        self.classifier = nn.Sequential(
            nn.Linear(base_model_output_shape, out_features=base_model_output_shape),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(base_model_output_shape, out_features=target_classes),
        )

        for layer in self.classifier:
            if isinstance(layer, nn.Linear):
                layer.weight.data.normal_(mean=0.0, std=0.02)
                if layer.bias is not None:
                    layer.bias.data.zero_()

    def forward(self, input_, y=None):
        X, length, attention_mask = input_
        base_output = self.base_model(X, attention_mask=attention_mask)[0]
        base_model_last_layer = base_output[:, 0]
        cls = self.classifier(base_model_last_layer)
        return cls

Во время обучения я использую линейный график разогрева LR с максимальным LR=5-e5 и потерю перекрестной энтропии.
В общем, модель способна обучаться на моем наборе данных и достигать высоких метрик точности/полноты.

Мой вопрос:

Должны ли распределения весов и смещений в классификационных слоях изменяться больше во время обучения? Кажется, что веса почти не меняются вообще, даже когда я не инициализирую их, как в коде (со средним=0.0 и std=0.02). Является ли это признаком того, что с моей моделью что-то не так, или это просто потому, что добавленные мною слои избыточны и модель не учится ничему новому?

Посмотрите на изображение весов из tensorboard:

Question 2

Сложно судить, просто глядя на распределение весов. Вы будете в лучшем положении, если также проверите следующие вещи:

1) Проверьте, уменьшается ли потеря во время обучения. Очень маловероятно, что случайно инициализированный последний слой не нуждается в обучении для успешного выполнения задачи. Это связано с тем, что даже если инициализированные слои выдают значимые значения, случайно инициализированный финальный слой в начале будет выдавать непонятные значения. Если потеря уменьшается, значит, обучение модели идет хорошо. В качестве альтернативы проверьте, улучшает ли финальный метрик, например, точность.

2) Проверьте градиент, получаемый вашими пользовательскими слоями. Одной из причин, почему распределение весов не изменяется, может быть нулевой или незначительный градиент. Я не думаю, что градиенты нулевые, потому что ваши графики показывают, что веса изменяются, но все же, если градиенты равны нулю, проверьте вашу реализацию. Что-то должно быть неправильно, например, неправильное использование фактического вывода модели при вычислении потерь для обратного распространения. Если градиенты очень маленькие, попробуйте увеличить скорость обучения оптимизатора.

Проведение вышеуказанных 2 анализов укрепит ваше понимание текущей ситуации с обучением модели.

Должен ли изменяться распределение весов при тонкой настройке классификатора на основе трансформеров?

Вопрос или проблема

Ответ или решение