“Речь в речь” (текст в речь, инициированная записью)

Вопрос или проблема

Я хочу создавать видеоконтент, который использует синтезированный голос, чтобы сохранить анонимность (и говорить в более “последовательной” манере, чем я это делаю, а также генерировать “чистый” звук, который по сути свободен от статических шумов), но с качественным синтезом речи, который звучит естественно. Я заметил, что даже лучшие ИИ-системы не всегда понимают, что я имею в виду с текстовой расшифровкой – и на самом деле, во многих случаях это невозможно угадать: я часто хочу подчеркивать слова, которые не являются самым естественным выбором, говорить с необычными интонациями или ритмом и т.д. Я также обнаружил, что интонация на уровне предложения является сложной задачей (даже для людей!), и обычно я не удовлетворен результатами обычного синтеза речи из текста.

Таким образом, моя идея заключается в том, чтобы записать себя читающим текст, а затем использовать какое-то программное обеспечение, которое может синтезировать голос, произносящий те же слова – с постоянным, заранее заданным тембром и стандартным произношением (т.е. скрывая мой местный акцент и личные характеристики речи), но имитируя мою интонацию, ритм, ударение, изменение тональности и т.д. Поскольку оно будет обязательно определять мой голос и затем генерировать выход, который будет только речью, это также косвенно удалит фоновые шумы.

Идеальное решение:

  • является открытым или хотя бы бесплатным

  • работает на Linux

Дополнительные очки за:

  • возможность настраивать степень, в которой оно пытается имитировать мой голос по сравнению со “стандартным” голосом

  • возможность внутренней транскрипции текста (нет задачи предоставить сценарий как отдельный ввод, так как я всё равно буду читать из него; но мне бы хотелось иметь возможность перепроверить, что оно “слышит”)

  • возможность параметризовать выходную речь другими способами – в частности, заставлять говорить быстрее или медленнее, чем моя запись

  • возможность “петь” узнаваемо, помимо разговора

Необязательно или не ценно:

  • хороший интерфейс (я рад использовать библиотеку и написать вокруг нее немного кода)

  • обработка в реальном времени (поскольку это для видеопродукции – на самом деле, мне бы очень хотелось иметь возможность выделить больше вычислительных ресурсов для решения проблемы)

  • единое решение “всё в одном” (нормально, если мне нужно будет подключить систему распознавания речи к обратной, при условии, что “размеченный текст” действительно может представлять описанные выше детали, и мне не придется проводить часы, пытаясь редактировать эту разметку вручную)

OpenVoice

Пожалуйста, ознакомьтесь с OpenVoice. Хотя я сам его не тестировал, он кажется соответствующим вашим требованиям.

OpenVoice обеспечивает возможность мгновенного клонирования голосов на myshell.ai с мая 2023 года. До ноября 2023 года модель клонирования голоса использовалась десятками миллионов пользователей по всему миру и наблюдался взрывной рост числа пользователей на платформе.

Клонирование голоса, похоже, именно то, что вы ищете, верно? Посмотрите видеофрагмент в README.md: https://github.com/myshell-ai/OpenVoice

Доступны контейнеры Docker. Это даже бесплатно для коммерческого использования.

Ответ или решение

Конечно, давайте рассмотрим ваше требование к созданию видеоконтента с использованием синтезированного голоса, который будет скрывать вашу личность и обеспечивать более стабильное звучание.

Итоговое решение: OpenVoice

Я рекомендую вам обратить внимание на проект OpenVoice. Это решение может удовлетворить ваши требования и предлагает многообещающие возможности для работы с синтезированным голосом.

1. Возможности OpenVoice

  • Клонирование голоса: OpenVoice обладает функцией клонирования голоса, что позволяет создавать синтетическую речь, которая будет имитировать вашу интонацию, ритм и акцент.
  • Открытый доступ: OpenVoice является проектом с открытым исходным кодом и доступен для использования бесплатно, что соответствует вашим требованиям.
  • Поддержка Linux: Поскольку вы используете операционную систему Linux, OpenVoice полностью подходит под ваши условия.

2. Дополнительные функции

  • Дополнительная настройка: С помощью OpenVoice вы сможете настраивать степень, с которой синтезированный голос будет напоминать ваш собственный, а также использовать "стандартные" параметры.
  • Автоматическая транскрипция: Вы можете предоставить текстовый скрипт, а система сможет сопоставить ваши записи с текстом, что позволит вам проверить его точность.
  • Настройка параметров вывода: OpenVoice позволит вам изменять скорость воспроизведения синтезированной речи, что добавляет гибкости к вашему видеоконтенту.
  • Возможность пения: В дальнейшем есть планы внедрить возможность хорошо звучащего пения, что придаст вашему контенту ещё больше выразительности.

3. Установка и использование

OpenVoice можно установить с помощью Docker, что упрощает процесс установки и развертывания. Вам не потребуется сложный интерфейс пользователя, и вы сможете написать собственный код для интеграции в ваш проект.

4. Ресурсы

Для получения дополнительной информации и начала работы вам стоит ознакомиться с документацией OpenVoice и видеоматериалами, представленными на странице проекта.

Заключение

Ваша идея о создании контента с использованием синтезированного голоса, который идентифицирует вашу индивидуальность и при этом обеспечивает высокое качество звучания, вполне реализуема с помощью OpenVoice. Учитывая его функционал и возможности настройки, это решение может стать надежным инструментом в вашей работе над видеоконтентом.

Оцените материал
Добавить комментарий

Капча загружается...