“Речь в речь” (текст в речь, инициированная записью)

Question 1

Я хочу создавать видеоконтент, который использует синтезированный голос, чтобы сохранить анонимность (и говорить в более “последовательной” манере, чем я это делаю, а также генерировать “чистый” звук, который по сути свободен от статических шумов), но с качественным синтезом речи, который звучит естественно. Я заметил, что даже лучшие ИИ-системы не всегда понимают, что я имею в виду с текстовой расшифровкой – и на самом деле, во многих случаях это невозможно угадать: я часто хочу подчеркивать слова, которые не являются самым естественным выбором, говорить с необычными интонациями или ритмом и т.д. Я также обнаружил, что интонация на уровне предложения является сложной задачей (даже для людей!), и обычно я не удовлетворен результатами обычного синтеза речи из текста.

Таким образом, моя идея заключается в том, чтобы записать себя читающим текст, а затем использовать какое-то программное обеспечение, которое может синтезировать голос, произносящий те же слова – с постоянным, заранее заданным тембром и стандартным произношением (т.е. скрывая мой местный акцент и личные характеристики речи), но имитируя мою интонацию, ритм, ударение, изменение тональности и т.д. Поскольку оно будет обязательно определять мой голос и затем генерировать выход, который будет только речью, это также косвенно удалит фоновые шумы.

Идеальное решение:

является открытым или хотя бы бесплатным
работает на Linux

Дополнительные очки за:

возможность настраивать степень, в которой оно пытается имитировать мой голос по сравнению со “стандартным” голосом
возможность внутренней транскрипции текста (нет задачи предоставить сценарий как отдельный ввод, так как я всё равно буду читать из него; но мне бы хотелось иметь возможность перепроверить, что оно “слышит”)
возможность параметризовать выходную речь другими способами – в частности, заставлять говорить быстрее или медленнее, чем моя запись
возможность “петь” узнаваемо, помимо разговора

Необязательно или не ценно:

хороший интерфейс (я рад использовать библиотеку и написать вокруг нее немного кода)
обработка в реальном времени (поскольку это для видеопродукции – на самом деле, мне бы очень хотелось иметь возможность выделить больше вычислительных ресурсов для решения проблемы)
единое решение “всё в одном” (нормально, если мне нужно будет подключить систему распознавания речи к обратной, при условии, что “размеченный текст” действительно может представлять описанные выше детали, и мне не придется проводить часы, пытаясь редактировать эту разметку вручную)

Question 2

OpenVoice

Пожалуйста, ознакомьтесь с OpenVoice. Хотя я сам его не тестировал, он кажется соответствующим вашим требованиям.

OpenVoice обеспечивает возможность мгновенного клонирования голосов на myshell.ai с мая 2023 года. До ноября 2023 года модель клонирования голоса использовалась десятками миллионов пользователей по всему миру и наблюдался взрывной рост числа пользователей на платформе.

Клонирование голоса, похоже, именно то, что вы ищете, верно? Посмотрите видеофрагмент в README.md: https://github.com/myshell-ai/OpenVoice

Доступны контейнеры Docker. Это даже бесплатно для коммерческого использования.

“Речь в речь” (текст в речь, инициированная записью)

Вопрос или проблема

OpenVoice

Ответ или решение

Итоговое решение: OpenVoice

1. Возможности OpenVoice

2. Дополнительные функции

3. Установка и использование

4. Ресурсы

Заключение