Вопрос или проблема
Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели.
Есть ли что-то готовое, что я мог бы использовать?
*Я пытался найти корпус sciBERT, не могу понять, как к нему получить доступ.
Спасибо!
Это зависит от области и языка, но я поделюсь адаптивным примером.
Английская версия корпуса Википедии содержит более 1,9 миллиарда слов из 4,4 миллиона статей.
Вы можете создать виртуальные корпуса из полного корпуса, чтобы они содержали только интересующие вас темы, такие как биология, инвестиции, буддизм, психология, автомобили, баскетбол и т.д.
Ответ или решение
Для обучения языковой модели в области компьютерных наук важно иметь доступ к качественному корпусу текстов, содержащему не менее 20 миллионов слов, а предпочтительно более 50 миллионов. В этом ответе я постараюсь осветить доступные источники и способы получения таких данных, а также поделюсь рекомендациями по их использованию.
Доступные источники для формирования корпуса
-
Wikipedia Corpus:
Один из наиболее обширных и универсальных источников — это корпус Википедии, содержащий более 1.9 миллиарда слов из 4.4 миллионов статей на английском языке. Вы можете создать виртуальный корпус, выбрав статьи, относящиеся к интересующим вас темам в области компьютерных наук. Для этого воспользуйтесь сервисом English Corpora, который позволяет фильтровать контент по ключевым словам и темам. Это отличный способ собрать релевантные данные без необходимости создавать корпус с нуля. -
arXiv:
Портал arXiv содержит огромное количество препринтов научных статей в различных областях, включая информатику. Вы можете воспользоваться API arXiv для загрузки текстов статей с высоким уровнем детализации. Поскольку артикулы обычно имеют стандартные форматы и структурированные аннотации, этот ресурс будет полезен для создания специализированного корпуса. -
GitHub:
GitHub является хранилищем огромного количества открытых проектов, кодов и документации, связанных с программированием и компьютерными науками. Анализ README-файлов, документации и исходного кода может дополнить ваш корпус. Создайте скрипты для извлечения нужных данных из репозиториев, используя API GitHub. -
Technical Blogs and Forums:
Вы также можете собирать тексты из технических блогов, форумов и специализированных сайтов. Например, ресурсы, такие как Stack Overflow, Medium и Hacker News, могут содержать много информации о современных разработках в программировании и технологий. Убедитесь, что соблюдаются условия использования данных с этих ресурсов.
SciBERT Corpus
Для использования SciBERT, который специально разработан для научных текстов, вы можете обратиться к репозиторию GitHub проекта (SciBERT GitHub). В этом репозитории вы найдете ссылки на обучающие данные, архитектуру модели и инструкции по ее применению. SciBERT включает в себя текстовые данные, которые были собраны из научной литературы, и может стать отличным дополнением к вашему корпусу.
Подходы к обработке данных
Когда вы будете собирать корпус:
- Очистка данных: Убедитесь, что ваши тексты очищены от нерелевантной информации, такой как HTML-теги или скрипты, для повышения качества модели.
- Анотация данных: Если это возможно, добавьте аннотации к текстам для улучшения обучаемости модели. Это может включать в себя метки по категориям, избранные ключевые слова и структуры.
- Балансировка корпуса: Следует учитывать, что корпус должен быть сбалансирован по темам для избежания предвзятости в обучении модели.
Заключение
В заключение, создание специализированного корпуса для обучения языковой модели в области компьютерных наук — это многоступенчатый процесс, который требует тщательного выбора источников и обработки данных. Используйте доступные источники информации, такие как Википедия, arXiv, GitHub и другие ресурсы, чтобы собрать необходимый объем текстов. Обязательно озаботьтесь очисткой и структурированием данных для достижения наилучших результатов в обучении вашей модели.