Обработка набора данных для ASR

Содержание

Вопрос или проблема
Ответ или решение
Определение проблемы
Влияние на модель
Рекомендации по обработке данных
Практическая реализация

Вопрос или проблема

Я работаю над тонкой настройкой модели Whisper от OpenAI для преобразования речи на непальском языке в текст в рамках моего проекта, но столкнулся с несколькими препятствиями и был бы признателен за любые советы или рекомендации от этого сообщества! 😊

Проблема состава набора данных
Я собрал свой набор данных из различных открытых платформ, и, хотя большинство транскрипций на непальском, имеются некоторые несоответствия:

Английские слова (например, иностранные имена, такие как “Дональд Трамп”) присутствуют в некоторых непальских транскрипциях, например: “आज अमेरिकाका राष्ट्रपति Donald Trump बेलायतको भ्रमण गएका छन्।”

Непальские и английские цифры смешаны в наборе данных: Вот аналогия на английском
Вот аналогия на английском, которая объясняет проблему, делая ее понятной для всех:

Аудио: “Two thousand seventy-seven was a significant year for earthquakes.”
Транскрипция: “2077 was a significant year for earthquakes.”

Как это смешение английских слов, непальских и английских чисел повлияет на процесс тонкой настройки? Смущает ли это модель, или можно продолжать работу с этим набором данных?

Стоит ли нормализовать набор данных (например, преобразовать все числа в непальские цифры или все в английские цифры) для обеспечения согласованности, или лучше оставить данные как есть?

Ответ или решение

Работа с датасетами для автоматического преобразования речи в текст (ASR), особенно при настройке модели OpenAI Whisper для языка непали, требует тщательной подготовки данных. Ваша задача осложняется смешением языков и чисел, что может повлиять на точность и эффективность модели. Рассмотрим ключевые аспекты и рекомендации по работе с такими ситуациями.

Определение проблемы

Вы описали две основные проблемы в вашем датасете:

Вмешение английских слов в транскрипции на непали: Пример: "आज अमेरिकाका राष्ट्रपति Donald Trump बेलायतको भ्रमण गएका छन्।"
Смешение непальских и английских чисел: Например, аудио звучит как "Two thousand seventy-seven was a significant year for earthquakes," но транскрипция содержит "2077 was a significant year for earthquakes."

Влияние на модель

Несогласованность в данных может привести к путанице для модели. Присутствие двух языков и чисел снижает способность модели точно предсказывать транскрипцию. В результате, это может быть причиной менее точных результатов, так как модель не будет уверенно понимать, какой набор символов предпочитать в каждом конкретном случае.

Практическая реализация

Анализ и чистка данных: Пройдите через ваш датасет, классифицируя и, при необходимости, исправляя все несоответствия, особенно связанные с числовыми значениями и языками.
Дополнительное обучение модели: Подумайте о том, чтобы дополнительно обучить модель на примерах текста, включающего код-свитчинг, если это частое явление в вашем датасете.
Проверка гипотез: Проверьте влияние нормализации на небольшой выборке данных, чтобы увидеть, как изменения влияют на точность и производительность модели.

Вы должны адаптировать свою стратегию на основе частоты и характера непоследовательностей в ваших данных. Такая проактивная и обоснованная работа с данными поможет максимизировать эффективность модели OpenAI Whisper для задачи распознавания речи на непали.