Вопрос или проблема
В настоящее время я заинтересован в проекте на основе wavenet, но не нашел ни одной реализации, которая даже remotely напоминает то, что рекламирует Google Deepmind здесь. Самая популярная реализация ссылается на этот пример вывода, который даже отдаленно не похож на примеры “случайно” сгенерированной речи от Deepmind.
Вот обсуждение на GitHub о генерации речи, которое может ответить на ваш вопрос: https://github.com/ibab/tensorflow-wavenet/issues/47
Им удается генерировать случайную речь, например:
https://soundcloud.com/user-952268654/wavenet-28k-steps-of-100k-samples
https://soundcloud.com/user-731806733/generated-larger-1
В противном случае, я не нашел ни одного кода, который напрямую генерирует случайную речь, но реализация в Keras кажется более удобной в использовании:
.
Ответ или решение
Вопрос о наличии хорошо работающей реализации WaveNet стал актуален для многих разработчиков и исследователей, заинтересованных в генерации аудиосигналов. Ниже приведён подробный обзор существующих реализаций и их возможностей.
Обзор реализаций WaveNet
-
TensorFlow WaveNet от ibab
Одной из самых известных реализаций является TensorFlow WaveNet. Эта реализация предоставляет базовый функционал для генерации звуковых сигналов, однако, как вы правильно заметили, вывод (например, пример аудио) не достигает уровня качества, который демонстрирует Google DeepMind в своих примерах.В обсуждении вопроса о генерации речи на GitHub можно найти несколько примеров, где пользователи делятся своими результатами, например, генерация речи и скачиваемого аудио. Эти примеры показывают, что успешная генерация случайной речи возможна, но не так проста, как хотелось бы.
-
Keras WaveNet от basveeling
Если вы ищете более удобный инструмент, стоит обратить внимание на реализацию WaveNet на Keras. Этот проект предлагает упрощённый интерфейс для пользователей, знакомых с Keras и желающих быстро разрабатывать и тестировать свои модели. Keras WaveNet может быть более доступен для новичков и предоставляет хорошие возможности для настройки модели.
Качество генерируемого аудио
Важно отметить, что качество генерируемого аудио многими факторами, включая число обучающих шагов, размер выборки данных и архитектуру модели. Несмотря на достижения реализаций, качество итогового звучания может существенно различаться. Модели, разработанные с использованием большого объёма обучающих данных и с детальной настройкой, значительно более удовлетворительные по сравнению с теми, которые используют более простые алгоритмы и меньший объем данных.
Заключение
К сожалению, ни одна из текущих реализованных версий WaveNet не достигает оригинального качества, продемонстрированного в работах DeepMind. Однако с использованием доступных инструментов, таких как TensorFlow WaveNet и Keras WaveNet, вполне возможно создать интересные и востребованные аудио модели. Если вы готовы потратить время на обучение и тестирование различных параметров моделей, вы сможете добиться удовлетворительных результатов.
Если у вас есть дополнительные вопросы о WaveNet или связанных технологиях, не стесняйтесь обращаться.