corpus - ответы на вопросы

Data Science

Корпус компьютерных наук для обучения языковой модели

Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?

Data Science

Извлечение жаргона из текста

Вопрос или проблема У меня есть большой текстовый корпус (документация от компании), и я хочу извлечь термины, которые специфичны для этой области/бизнеса. Я могу сделать это с помощью TF или TF-IDF и ориентироваться на частоту слов, что не всегда надежно.