Вопрос или проблема
- Я хочу использовать
VGG16
(илиVGG19
) для задачи кластеризации голосов. - Я читал несколько статей, которые предлагают использовать
VGG
(16 или 19) для построения векторного встраивания для алгоритма кластеризации. - Процесс заключается в преобразовании файла wav в
mfcc
илиграфик (Амп vs Время)
и использовании этого в качестве входных данных для моделиVGG
. - Я попробовал это с
VGG19
(иweights="imagenet"
). - Результаты были плохими, и я предположил, что это из-за того, что я использую
VGG
с неправильными весами (весами изображений (imagenet
)).
Итак:
- Существуют ли какие-либо предобученные веса для аудио/голоса для VGG?
- Если нет, есть ли другие предобученные модели для аудио/голоса?
Насколько мне известно, VVGish — это VGG, адаптированный для обработки аудио. Я помню, что использовал его с mfcc, хотя не с входом Амп-Время.
Кроме VGGish, упомянутого @Ubikuity, есть и другие предобученные аудиомодели:
- PANNs от Цюцяня Конга. На июль 2021 года одна из лучших моделей для общей классификации аудио AudioSet. PANNs @ Github. Основана на PyTorch.
- YAMNet, от той же команды Google, что и VGGish. YAMNet @ TfHub. Основана на Tensorflow.
- OpenL3 от Лаборатории музыкальных и аудионаучных исследований в NYU. Очень легко начать работу. OpenL3 @ Github. Основана на Tensorflow/Keras.
Ответ или решение
К сожалению, VGG16 и VGG19 не имеют предобученных весов для обработки аудиосигналов. Эти модели изначально разрабатывались для задач компьютерного зрения и были обучены на наборе данных ImageNet, что делает их неэффективными для аудиоклассификации без значительной дообработки и адаптации.
Если вы хотите использовать архитектуру, аналогичную VGG, для работы с аудио, вы можете обратить внимание на адаптированные варианты:
-
VGGish: Это версия VGG, адаптированная для обработки аудио сигналов. Она предназначена для извлечения признаков из аудиофайлов и может использоваться с воементоспектрограммами или MFCC. Так как вы уже попробовали использовать VGG19 с весами ImageNet, вы могли бы рассмотреть возможность использования VGGish, которая лучше подходит для аудиозадач. Дополнительную информацию и код можно найти на GitHub-репозитории VGGish.
-
Пре-trained audio models:
- PANNs (Pretrained Audio Neural Networks): Модель, разработанная Цюйцюанем Конгом, является одной из лучших для общей аудиоклассификации на наборе данных AudioSet. Вы сможете найти модель и примеры на GitHub репозитории PANNs. Эта модель реализована на базе PyTorch.
- YAMNet: Эта модель также разработана командой Google и основана на TensorFlow. Она предназначена для анализа аудиосигналов и может обучаться на наборе данных AudioSet. Больше информации и возможности использовать модель можно найти на TensorFlow Hub.
- OpenL3: Это еще одна замечательная модель, разработанная в Исследовательской лаборатории музыкального и аудионаучного факультета в Нью-Йоркском университете. OpenL3 легко интегрируется и предоставляет простой способ работы с аудиоданными. Дополнительные материалы и код доступны на GitHub-странице OpenL3.
Резюмируя, если вы хотите эффективно использовать глубинное обучение для кластеризации аудиосигналов, я рекомендую начать с моделей, специально предназначенных для работы с аудио, таких как VGGish, PANNs или YAMNet, вместо использования стандартных изображенческих моделей, таких как VGG16 или VGG19.