Как Wav2Vec 2.0 передает вывод от свертки признаков в качестве входных данных в сеть контекста трансформера

Question 1

Я читал статья Wav2Vec 2.0 и пытался понять архитектуру модели, но у меня возникли трудности с пониманием того, как сырьевые аудиовходы переменной длины могут быть поданы в модель, особенно от свёрточного кодировщика признаков к контекстной сети трансформеров.

Во время тонкой настройки (по тому, что я читал) даже несмотря на то, что сырьевые аудиовходы внутри пакета будут дополнены до длины самого длинного входа в пакете, длина входов может различаться между пакетами. Это подразумевает, что выход от свёрточного кодировщика признаков будет иметь переменные длины между пакетами.

Тем не менее, контекстная сеть трансформеров имеет фиксированное измерение входа; базовая модель Wav2Vec 2.0 использует трансформер с модельным измерением 768. Это означает, что выход от свёрточного кодировщика признаков каким-то образом должен быть “манипулирован”, чтобы стать размером 768, чтобы подать его в трансформер.

Как происходит эта “манипуляция”? Модель Wav2Vec от HuggingFace (см. ниже) показала, что между свёрточным кодировщиком признаков (также известным как Wav2Vec2FeatureExtractor) и контекстной сетью трансформеров (также известной как Wav2Vec2Encoder) есть слой Wav2Vec2FeatureProjection. Этот слой Wav2Vec2FeatureProjection содержит линейный слой, который принимает вход размером 512 и выводит размером 768. Как определяется размер входа 512, если сырьевые входы могут иметь переменные длины между пакетами?

Wav2Vec2ForCTC(
  (wav2vec2): Wav2Vec2Model(
    (feature_extractor): Wav2Vec2FeatureExtractor(
      (conv_layers): ModuleList(
        ...
        (6): Wav2Vec2NoLayerNormConvLayer(
          (conv): Conv1d(512, 512, kernel_size=(2,), stride=(2,), bias=False)
        )
      )
    )
    (feature_projection): Wav2Vec2FeatureProjection(
      (layer_norm): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
      (projection): Linear(in_features=512, out_features=768, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): Wav2Vec2Encoder(
      (pos_conv_embed): Wav2Vec2PositionalConvEmbedding(
        (conv): Conv1d(768, 768, kernel_size=(128,), stride=(1,), padding=(64,), groups=16)
        (padding): Wav2Vec2SamePadLayer()
      )
    ...

Question 2

Ключевым моментом является то, что вектор размером 768 элементов для трансформера соответствует размеру одного входа… позвольте объяснить.

Вы начинаете с сырьевого аудиовхода переменной длины
Он передаётся через временную сеть CNN, которая выдаст вам выходы, названные $z_1$ до $z_T$ согласно статье – где T переменна между пакетами и соответствует количеству временных шагов в определённом аудиовходе (различным для разных аудиовходов).
Каждый из этих $z$ передаётся как векторы размером 768 элементов в трансформер, то есть передаётся $T$ векторов размером 768 в ваш трансформер

Как вы можете представить, практически вам также нужно будет передать маску в трансформер, чтобы он знал, что переменная $T$ обозначает для различных входов в вашем пакете.

Как Wav2Vec 2.0 передает вывод от свертки признаков в качестве входных данных в сеть контекста трансформера

Вопрос или проблема

Ответ или решение

Входные данные и Конволюционный Функциональный Эмиттер

Переход к Трансформерному Контекстному Сети

Что такое Wav2Vec2FeatureProjection?

Преобразование и маскирование

Заключение