Вопрос или проблема
Я хочу создавать видеоконтент, который использует синтезированный голос, чтобы сохранить анонимность (и говорить в более “последовательной” манере, чем я это делаю, а также генерировать “чистый” звук, который по сути свободен от статических шумов), но с качественным синтезом речи, который звучит естественно. Я заметил, что даже лучшие ИИ-системы не всегда понимают, что я имею в виду с текстовой расшифровкой – и на самом деле, во многих случаях это невозможно угадать: я часто хочу подчеркивать слова, которые не являются самым естественным выбором, говорить с необычными интонациями или ритмом и т.д. Я также обнаружил, что интонация на уровне предложения является сложной задачей (даже для людей!), и обычно я не удовлетворен результатами обычного синтеза речи из текста.
Таким образом, моя идея заключается в том, чтобы записать себя читающим текст, а затем использовать какое-то программное обеспечение, которое может синтезировать голос, произносящий те же слова – с постоянным, заранее заданным тембром и стандартным произношением (т.е. скрывая мой местный акцент и личные характеристики речи), но имитируя мою интонацию, ритм, ударение, изменение тональности и т.д. Поскольку оно будет обязательно определять мой голос и затем генерировать выход, который будет только речью, это также косвенно удалит фоновые шумы.
Идеальное решение:
-
является открытым или хотя бы бесплатным
-
работает на Linux
Дополнительные очки за:
-
возможность настраивать степень, в которой оно пытается имитировать мой голос по сравнению со “стандартным” голосом
-
возможность внутренней транскрипции текста (нет задачи предоставить сценарий как отдельный ввод, так как я всё равно буду читать из него; но мне бы хотелось иметь возможность перепроверить, что оно “слышит”)
-
возможность параметризовать выходную речь другими способами – в частности, заставлять говорить быстрее или медленнее, чем моя запись
-
возможность “петь” узнаваемо, помимо разговора
Необязательно или не ценно:
-
хороший интерфейс (я рад использовать библиотеку и написать вокруг нее немного кода)
-
обработка в реальном времени (поскольку это для видеопродукции – на самом деле, мне бы очень хотелось иметь возможность выделить больше вычислительных ресурсов для решения проблемы)
-
единое решение “всё в одном” (нормально, если мне нужно будет подключить систему распознавания речи к обратной, при условии, что “размеченный текст” действительно может представлять описанные выше детали, и мне не придется проводить часы, пытаясь редактировать эту разметку вручную)
OpenVoice
Пожалуйста, ознакомьтесь с OpenVoice. Хотя я сам его не тестировал, он кажется соответствующим вашим требованиям.
OpenVoice обеспечивает возможность мгновенного клонирования голосов на myshell.ai с мая 2023 года. До ноября 2023 года модель клонирования голоса использовалась десятками миллионов пользователей по всему миру и наблюдался взрывной рост числа пользователей на платформе.
Клонирование голоса, похоже, именно то, что вы ищете, верно? Посмотрите видеофрагмент в README.md: https://github.com/myshell-ai/OpenVoice
Доступны контейнеры Docker. Это даже бесплатно для коммерческого использования.
Ответ или решение
Конечно, давайте рассмотрим ваше требование к созданию видеоконтента с использованием синтезированного голоса, который будет скрывать вашу личность и обеспечивать более стабильное звучание.
Итоговое решение: OpenVoice
Я рекомендую вам обратить внимание на проект OpenVoice. Это решение может удовлетворить ваши требования и предлагает многообещающие возможности для работы с синтезированным голосом.
1. Возможности OpenVoice
- Клонирование голоса: OpenVoice обладает функцией клонирования голоса, что позволяет создавать синтетическую речь, которая будет имитировать вашу интонацию, ритм и акцент.
- Открытый доступ: OpenVoice является проектом с открытым исходным кодом и доступен для использования бесплатно, что соответствует вашим требованиям.
- Поддержка Linux: Поскольку вы используете операционную систему Linux, OpenVoice полностью подходит под ваши условия.
2. Дополнительные функции
- Дополнительная настройка: С помощью OpenVoice вы сможете настраивать степень, с которой синтезированный голос будет напоминать ваш собственный, а также использовать "стандартные" параметры.
- Автоматическая транскрипция: Вы можете предоставить текстовый скрипт, а система сможет сопоставить ваши записи с текстом, что позволит вам проверить его точность.
- Настройка параметров вывода: OpenVoice позволит вам изменять скорость воспроизведения синтезированной речи, что добавляет гибкости к вашему видеоконтенту.
- Возможность пения: В дальнейшем есть планы внедрить возможность хорошо звучащего пения, что придаст вашему контенту ещё больше выразительности.
3. Установка и использование
OpenVoice можно установить с помощью Docker, что упрощает процесс установки и развертывания. Вам не потребуется сложный интерфейс пользователя, и вы сможете написать собственный код для интеграции в ваш проект.
4. Ресурсы
Для получения дополнительной информации и начала работы вам стоит ознакомиться с документацией OpenVoice и видеоматериалами, представленными на странице проекта.
Заключение
Ваша идея о создании контента с использованием синтезированного голоса, который идентифицирует вашу индивидуальность и при этом обеспечивает высокое качество звучания, вполне реализуема с помощью OpenVoice. Учитывая его функционал и возможности настройки, это решение может стать надежным инструментом в вашей работе над видеоконтентом.