Офлайн, с открытым исходным кодом, перевод речи в речь в реальном времени

Вопрос или проблема

Предыстория

Ищу способ для перевода в реальном времени с английского на другой язык (например, мандарин, корейский, японский, немецкий, французский, испанский и т.д.) с использованием телефона на Android (Samsung Galaxy S10e).

Требования

Ищу переводчик:

  • Установить язык вывода (обойти определение языка)
  • Говорить в телефон на английском (вход) и телефон производит слышимый перевод (выход)
  • Кнопка немедленного перевода (для обозначения конца ввода)
  • В реальном времени или почти в реальном времени
  • Бесплатно и с открытым исходным кодом
  • Работает на 100% офлайн

Программное обеспечение

Распознавание речи: Надежная модель распознавания речи, которая может точно транскрибировать spoken language в текст. Предпочтительно без использования продуктов Google или Microsoft.

Перевод языка: Для перевода распознанного текста на другой язык.

Синтез речи:: Конвертировать переведенный текст обратно в речь, используя движок TTS.

Пользовательский интерфейс: Удобный интерфейс, который позволяет пользователям легко начинать и останавливать переводы, а также управлять настройками языка.

Библиотеки

Вот несколько перспективных библиотек с открытым исходным кодом:

Идеи

Я пробовал:

  • 3PO — Нет офлайн режима.
  • RTranslator — Не смог заставить его выполнять базовый перевод с одним устройством и без блютуз наушников.

Вопрос

Вы成功 ли запустили офлайн систему перевода “речь в речь” в реальном времени (или почти в реальном времени) на устройстве Android? Если да, то какое приложение вы использовали или какое приложение вы бы порекомендовали?

Ответ или решение

Введение

Вопрос о создании офлайн решения для реализации перевода речи в реальном времени на Android-устройстве, таком как Samsung Galaxy S10e, действительно актуален. Особенно важно, что вы стремитесь к использованию свободного и открытого программного обеспечения, которое позволит избежать зависимости от облачных сервисов. В данном ответе мы рассмотрим возможность создания системы перевода речи с использованием доступных технологий и библиотек.

Языковая обработка в реальном времени

Чтобы достичь вашей цели, давайте пройдемся по трем основным компонентам: распознавание речи, перевод текста и синтез речи. Рассмотрим их возможности и доступные инструменты.

1. Распознавание речи

Для распознавания речи вы можете рассмотреть использование OpenAI Whisper. Эта библиотека предлагает превосходные результаты в транскрибировании речи и, что важно, может работать офлайн. Whisper поддерживает множество языков и имеет возможность быть адаптированным под ваши нужды, что позволяет более точно распознавать английскую речь.

  • Установка Whisper:
    Whisper может быть установлена через Python, однако для работы на Android потребуется создать интерфейс, который сможет взаимодействовать с библиотекой. Библиотека имеет хорошие требования по производительности, поэтому убедитесь, что ваше устройство соответствует минимальным требованиям.

2. Перевод текста

Что касается перевода текста, открытую альтернативу предоставляют библиотеки, такие как Marian NMT или Hugging Face Transformers. Эти инструменты могут быть загружены на ваше устройство и настроены для работы офлайн, однако они потребуют больше ресурсов.

  • Ключевые особенности:
    • Поддержка множества языков (включая китайский, корейский, японский и др.).
    • Легкость интеграции и возможность обучения модели на ваших данных.

3. Синтез речи (TTS)

Для воспроизведения переведенного текста вы можете использовать eSpeak или Festival TTS. Эти движки синтеза речи обеспечивают возможность генерировать аудио в различных языках и могут работать локально.

  • Преимущества:
    • Перепроизводимость на множестве платформ.
    • Легкость в использовании и настройке под специфические требования.

Интерфейс пользователя

Разработка удобного интерфейса – это критический аспект для успешного использования системы. Потребуется создать приложение для Android, которое будет включать:

  • Кнопка "Перевести": Для начала и завершения записи.
  • Выбор языка: Интерфейс для выбора целевого языка перевода.
  • Отображение результатов: Окно для отображения распознанного текста и перевода.

Инструменты для разработки приложения

Для создания пользовательского интерфейса можно воспользоваться такими инструментами, как Android Studio с использованием Java или Kotlin.

Итоги и рекомендации

На основании вышесказанного, эффективным решением будет интеграция OpenAI Whisper для распознавания речи, Marian NMT или Hugging Face Transformers для перевода текста, и eSpeak или Festival TTS для синтеза речи. Как только вы создадите работоспособный интерфейс, у вас будет офлайн система, позволяющая переводить речь в реальном времени.

Заключение

Надеюсь, эта информация окажется полезной при реализации вашего проекта по созданию офлайн системы перевода речи. Создание такого сложного приложения требует времени и усилий, однако с правильными инструментами и библиотеками, это вполне осуществимая задача. Удачи вам в вашем начинании!

Оцените материал
Добавить комментарий

Капча загружается...