Data Science
ГММ в распознавании речи с использованием ГММ-ГММ
00
Вопрос или проблема Я пытаюсь решить/понять ASR, используя HMM-GMM. На абстрактном уровне я понимаю, что происходит, но я не понимаю, как GMM вписывается в это. У меня есть 5000 часов речи от одного пользователя. Я взял изображение выше из этой статьи.
Data Science
Как Wav2Vec 2.0 передает вывод от свертки признаков в качестве входных данных в сеть контекста трансформера
00
Вопрос или проблема Я читал статья Wav2Vec 2.0 и пытался понять архитектуру модели, но у меня возникли трудности с пониманием того, как сырьевые аудиовходы переменной длины могут быть поданы в модель, особенно от свёрточного кодировщика признаков к контекстной сети трансформеров.
Компьютеры и программы
Как использовать Google Speech to Text в любом приложении Windows?
00
Вопрос или проблема Используя Android и клавиатуру Swiftkey, я могу использовать Google Речь в Текст в любом месте, просто быстро удерживая кнопку. На моем компьютере с Windows я хочу говорить через микрофон и позволить Google печатать за меня.
Data Science
Речь в текст для неподдерживаемого языка
00
Вопрос или проблема Я работаю над проектом, чтобы интегрировать старую добрую распознавание речи в своем приложении. Однако я хочу сделать это на диалекте моей страны, который не поддерживается такими крупными API, как Azure, AWS и т.
Вопросы и ответы
Azure Speech to Text – Автоопределение языка не работает
00
Вопрос или проблема Azure Speech to Text – Автоопределение языка не работает Я работаю над проектом с использованием NextJS, где мне нужно реализовать непрерывное распознавание речи в текст с определением языка. Хотя я успешно настроил распознавание