corpus
Data Science
Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?
Data Science
Вопрос или проблема У меня есть большой текстовый корпус (документация от компании), и я хочу извлечь термины, которые специфичны для этой области/бизнеса. Я могу сделать это с помощью TF или TF-IDF и ориентироваться на частоту слов, что не всегда надежно.