Существуют ли веса звука или аудио для VGG или Inception?

На чтение 3 мин Опубликовано 28.09.2024

Вопрос или проблема

Я хочу использовать VGG16 (или VGG19) для задачи кластеризации голосов.
Я читал несколько статей, которые предлагают использовать VGG (16 или 19) для построения векторного встраивания для алгоритма кластеризации.
Процесс заключается в преобразовании файла wav в mfcc или график (Амп vs Время) и использовании этого в качестве входных данных для модели VGG.
Я попробовал это с VGG19 (и weights="imagenet").
Результаты были плохими, и я предположил, что это из-за того, что я использую VGG с неправильными весами (весами изображений (imagenet)).

Итак:

Существуют ли какие-либо предобученные веса для аудио/голоса для VGG?
Если нет, есть ли другие предобученные модели для аудио/голоса?

Насколько мне известно, VVGish — это VGG, адаптированный для обработки аудио. Я помню, что использовал его с mfcc, хотя не с входом Амп-Время.

Кроме VGGish, упомянутого @Ubikuity, есть и другие предобученные аудиомодели:

PANNs от Цюцяня Конга. На июль 2021 года одна из лучших моделей для общей классификации аудио AudioSet. PANNs @ Github. Основана на PyTorch.
YAMNet, от той же команды Google, что и VGGish. YAMNet @ TfHub. Основана на Tensorflow.
OpenL3 от Лаборатории музыкальных и аудионаучных исследований в NYU. Очень легко начать работу. OpenL3 @ Github. Основана на Tensorflow/Keras.

Ответ или решение

К сожалению, VGG16 и VGG19 не имеют предобученных весов для обработки аудиосигналов. Эти модели изначально разрабатывались для задач компьютерного зрения и были обучены на наборе данных ImageNet, что делает их неэффективными для аудиоклассификации без значительной дообработки и адаптации.

Если вы хотите использовать архитектуру, аналогичную VGG, для работы с аудио, вы можете обратить внимание на адаптированные варианты:

VGGish: Это версия VGG, адаптированная для обработки аудио сигналов. Она предназначена для извлечения признаков из аудиофайлов и может использоваться с воементоспектрограммами или MFCC. Так как вы уже попробовали использовать VGG19 с весами ImageNet, вы могли бы рассмотреть возможность использования VGGish, которая лучше подходит для аудиозадач. Дополнительную информацию и код можно найти на GitHub-репозитории VGGish.
Пре-trained audio models:
- PANNs (Pretrained Audio Neural Networks): Модель, разработанная Цюйцюанем Конгом, является одной из лучших для общей аудиоклассификации на наборе данных AudioSet. Вы сможете найти модель и примеры на GitHub репозитории PANNs. Эта модель реализована на базе PyTorch.
- YAMNet: Эта модель также разработана командой Google и основана на TensorFlow. Она предназначена для анализа аудиосигналов и может обучаться на наборе данных AudioSet. Больше информации и возможности использовать модель можно найти на TensorFlow Hub.
- OpenL3: Это еще одна замечательная модель, разработанная в Исследовательской лаборатории музыкального и аудионаучного факультета в Нью-Йоркском университете. OpenL3 легко интегрируется и предоставляет простой способ работы с аудиоданными. Дополнительные материалы и код доступны на GitHub-странице OpenL3.

Резюмируя, если вы хотите эффективно использовать глубинное обучение для кластеризации аудиосигналов, я рекомендую начать с моделей, специально предназначенных для работы с аудио, таких как VGGish, PANNs или YAMNet, вместо использования стандартных изображенческих моделей, таких как VGG16 или VGG19.