Data Science
Сегментируйте аудио длительностью 5-7 минут на аудиоклипы по предложениям для создания набора данных для распознавания речи.
00
Вопрос или проблема Я пытаюсь создать набор данных для распознавания речи, особенно для индийских акцентов. Я собираю данные от коллег для этого. Каждый день я отправляю ссылку на статью и прошу их записать и загрузить запись на Google Drive.
Data Science
Обработка набора данных для ASR
00
Вопрос или проблема Я работаю над тонкой настройкой модели Whisper от OpenAI для преобразования речи на непальском языке в текст в рамках моего проекта, но столкнулся с несколькими препятствиями и был бы признателен за любые советы или рекомендации от этого сообщества!
Data Science
Помогите! Обработка набора данных для ASR?
00
Вопрос или проблема Я работаю над тонкой настройкой модели Whisper от OpenAI для перевода речи на непальский текст в рамках моего проекта, но столкнулся с некоторыми трудностями и буду признателен за любые рекомендации или предложения от этого сообщества!
Data Science
ValueError: Ошибка при проверке входных данных: ожидалось, что the_input будет иметь 3 измерения, но получен массив с формой (14174, 1)
00
Вопрос или проблема надеюсь, у вас все хорошо! Я работаю над автоматическим распознаванием речи с Python и набором данных LibriSpeech. После предварительной обработки аудиоданных и применения “MFCC признаков” я добавляю все в список и получаю форму (14174,).
Data Science
ГММ в распознавании речи с использованием ГММ-ГММ
00
Вопрос или проблема Я пытаюсь решить/понять ASR, используя HMM-GMM. На абстрактном уровне я понимаю, что происходит, но я не понимаю, как GMM вписывается в это. У меня есть 5000 часов речи от одного пользователя. Я взял изображение выше из этой статьи.
Data Science
Как Wav2Vec 2.0 передает вывод от свертки признаков в качестве входных данных в сеть контекста трансформера
00
Вопрос или проблема Я читал статья Wav2Vec 2.0 и пытался понять архитектуру модели, но у меня возникли трудности с пониманием того, как сырьевые аудиовходы переменной длины могут быть поданы в модель, особенно от свёрточного кодировщика признаков к контекстной сети трансформеров.
Компьютеры и программы
Как использовать Google Speech to Text в любом приложении Windows?
00
Вопрос или проблема Используя Android и клавиатуру Swiftkey, я могу использовать Google Речь в Текст в любом месте, просто быстро удерживая кнопку. На моем компьютере с Windows я хочу говорить через микрофон и позволить Google печатать за меня.
Data Science
Речь в текст для неподдерживаемого языка
00
Вопрос или проблема Я работаю над проектом, чтобы интегрировать старую добрую распознавание речи в своем приложении. Однако я хочу сделать это на диалекте моей страны, который не поддерживается такими крупными API, как Azure, AWS и т.
Вопросы и ответы
Azure Speech to Text – Автоопределение языка не работает
00
Вопрос или проблема Azure Speech to Text – Автоопределение языка не работает Я работаю над проектом с использованием NextJS, где мне нужно реализовать непрерывное распознавание речи в текст с определением языка. Хотя я успешно настроил распознавание