Извлекатель текстов песен (распознавание речи)

Вопрос или проблема

У меня есть несколько песен на английском языке, для которых не опубликованы тексты, так как они не популярны. Поэтому я ищу онлайн-сервис или самостоятельное приложение, которое может извлекать (распознавать) тексты песен (в качестве текста) из песни (например, mp3).

Поскольку технологии распознавания речи значительно продвинулись за последние несколько лет, я могу предложить локальное и открытое программное решение: OpenAI Whisper. Вы также можете использовать этот Google Colab Notebook, если вам неудобно устанавливать его локально. Улучшенная версия Whisper – это WhisperX, которая предлагает более быстрое транскрибирование, точное временное метки на уровне слов и транскрибацию с несколькими спикерами.

Также есть качественный эксперимент использования Whisper для транскрибирования песен различной сложности: Транскрипция текстов песен в нулевом режиме с использованием Whisper. Также: Версия без платных стен. Вы можете видеть, что он может транскрибировать песни до уровня сложности «The Pursuit of Vikings» группы Ammon Amarth с только несколькими однословными ошибками. Хотя из моего личного опыта, вокал должен быть хотя бы отчасти различимым для людей, чтобы Whisper мог его транскрибировать. Я пробовал транскрибировать действительно сырой и неразборчивый black metal трек с помощью Whisper, и в этом случае это не сработало.

Ответ или решение

Для извлечения текста (лирики) из песен, которые не имеют опубликованных текстов, вы можете воспользоваться различными решениями на основе технологий распознавания речи, которые за последние годы значительно продвинулись. Одним из самых эффективных и удобных инструментов является OpenAI Whisper.

Рекомендации:

  1. OpenAI Whisper: Это мощный инструмент для распознавания речи, доступный на GitHub. Он подходит для локальной установки и поддерживает множество языков. Вы можете найти его по следующей ссылке: OpenAI Whisper на GitHub.

  2. Google Colab: Если установка локально не подходит, вы можете воспользоваться этим Google Colab Notebook, который позволяет запускать Whisper в облаке. Это обеспечит вам возможность экспериментировать с распознаванием лирики без необходимости настраивать программное обеспечение на вашем устройстве.

  3. WhisperX: Улучшенная версия Whisper, доступная по ссылке WhisperX на GitHub, предлагает более быструю транскрипцию, точные временные метки на уровне слов и возможность обработки нескольких говорящих.

Качество распознавания:

Существует качественный эксперимент, в котором Whisper использовался для транскрипции песен различной сложности. Об этом можно прочитать в статье: Zero-Shot Song Lyrics Transcription Using Whisper. В данной статье представлены результаты работы Whisper при распознавании песен, включая сложные композиции, такие как "The Pursuit of Vikings" группы Ammon Amarth. Результаты показывают, что транскрипция возможна с минимальными ошибками, однако важно, чтобы вокал был достаточно разборчивым для человеческого восприятия. Например, в случае очень нечетких и сложных для понимания комуляций, таких как black metal, Whisper может столкнуться с трудностями.

Заключение:

Используя указанные инструменты, вы сможете эффективно извлекать лирику из песен, которые не имеют опубликованных текстов. Рекомендуется начать с OpenAI Whisper или WhisperX, в зависимости от ваших предпочтений в установке и использовании. Удачи вам в ваших музыкальных исследованиях!

Оцените материал
Добавить комментарий

Капча загружается...