speech-to-text
Data Science
Вопрос или проблема Я пытаюсь решить/понять ASR, используя HMM-GMM. На абстрактном уровне я понимаю, что происходит, но я не понимаю, как GMM вписывается в это. У меня есть 5000 часов речи от одного пользователя. Я взял изображение выше из этой статьи.
Data Science
Вопрос или проблема Я читал статья Wav2Vec 2.0 и пытался понять архитектуру модели, но у меня возникли трудности с пониманием того, как сырьевые аудиовходы переменной длины могут быть поданы в модель, особенно от свёрточного кодировщика признаков к контекстной сети трансформеров.
Компьютеры и программы
Вопрос или проблема Используя Android и клавиатуру Swiftkey, я могу использовать Google Речь в Текст в любом месте, просто быстро удерживая кнопку. На моем компьютере с Windows я хочу говорить через микрофон и позволить Google печатать за меня.
Data Science
Вопрос или проблема Я работаю над проектом, чтобы интегрировать старую добрую распознавание речи в своем приложении. Однако я хочу сделать это на диалекте моей страны, который не поддерживается такими крупными API, как Azure, AWS и т.
Вопросы и ответы
Вопрос или проблема Azure Speech to Text – Автоопределение языка не работает Я работаю над проектом с использованием NextJS, где мне нужно реализовать непрерывное распознавание речи в текст с определением языка. Хотя я успешно настроил распознавание