speech-to-text - ответы на вопросы

Data Science

Сегментируйте аудио длительностью 5-7 минут на аудиоклипы по предложениям для создания набора данных для распознавания речи.

00

Вопрос или проблема Я пытаюсь создать набор данных для распознавания речи, особенно для индийских акцентов. Я собираю данные от коллег для этого. Каждый день я отправляю ссылку на статью и прошу их записать и загрузить запись на Google Drive.

Data Science

Обработка набора данных для ASR

00

Вопрос или проблема Я работаю над тонкой настройкой модели Whisper от OpenAI для преобразования речи на непальском языке в текст в рамках моего проекта, но столкнулся с несколькими препятствиями и был бы признателен за любые советы или рекомендации от этого сообщества!

Data Science

Помогите! Обработка набора данных для ASR?

00

Вопрос или проблема Я работаю над тонкой настройкой модели Whisper от OpenAI для перевода речи на непальский текст в рамках моего проекта, но столкнулся с некоторыми трудностями и буду признателен за любые рекомендации или предложения от этого сообщества!

Data Science

ValueError: Ошибка при проверке входных данных: ожидалось, что the_input будет иметь 3 измерения, но получен массив с формой (14174, 1)

00

Вопрос или проблема надеюсь, у вас все хорошо! Я работаю над автоматическим распознаванием речи с Python и набором данных LibriSpeech. После предварительной обработки аудиоданных и применения “MFCC признаков” я добавляю все в список и получаю форму (14174,).

Data Science

ГММ в распознавании речи с использованием ГММ-ГММ

00

Вопрос или проблема Я пытаюсь решить/понять ASR, используя HMM-GMM. На абстрактном уровне я понимаю, что происходит, но я не понимаю, как GMM вписывается в это. У меня есть 5000 часов речи от одного пользователя. Я взял изображение выше из этой статьи.

Data Science

Как Wav2Vec 2.0 передает вывод от свертки признаков в качестве входных данных в сеть контекста трансформера

00

Вопрос или проблема Я читал статья Wav2Vec 2.0 и пытался понять архитектуру модели, но у меня возникли трудности с пониманием того, как сырьевые аудиовходы переменной длины могут быть поданы в модель, особенно от свёрточного кодировщика признаков к контекстной сети трансформеров.

Компьютеры и программы

Как использовать Google Speech to Text в любом приложении Windows?

00

Вопрос или проблема Используя Android и клавиатуру Swiftkey, я могу использовать Google Речь в Текст в любом месте, просто быстро удерживая кнопку. На моем компьютере с Windows я хочу говорить через микрофон и позволить Google печатать за меня.

Data Science

Речь в текст для неподдерживаемого языка

00

Вопрос или проблема Я работаю над проектом, чтобы интегрировать старую добрую распознавание речи в своем приложении. Однако я хочу сделать это на диалекте моей страны, который не поддерживается такими крупными API, как Azure, AWS и т.

Вопросы и ответы

Azure Speech to Text – Автоопределение языка не работает

00

Вопрос или проблема Azure Speech to Text – Автоопределение языка не работает Я работаю над проектом с использованием NextJS, где мне нужно реализовать непрерывное распознавание речи в текст с определением языка. Хотя я успешно настроил распознавание