Как выявить новые описания вакансий/объявления из набора документов, имея набор уже размеченных описаний вакансий/объявлений.

Question 1

Предположим, у меня есть набор уже размеченных документов — некоторые из них являются описаниями вакансий (это документы интереса), а некоторые нет. Мне интересно, какой метод позволит мне построить модель, которая сможет обобщать на новые данные, в частности, новые описания вакансий, которые могут значительно отличаться от уже размеченных описаний вакансий.

Что я сделал до сих пор (на Python):

(1) Попытка 1: Я попробовал классический метод мешка слов + TfidfVectorizer + бинарная классификация (в частности, LogisticRegression). При настройке параметров на обучающем + валидационном наборах, точность и полнота на тестовом наборе смогли достичь более 98%. Однако после того, как я построил модель, я собрал новый набор документов (опять же, некоторые из них являются объявлениями о вакансиях, а другие — нет) и попросил аннотаторов размечать эти новые данные. Затем я использовал модель для классификации этих новых документов. Как можно было ожидать, точность и полнота значительно упали до примерно 65% и 40% соответственно.

(2) Попытка 2: Я подумал, что использование только tfidf может вызвать некоторое переобучение, поэтому я попробовал применить TruncatedSVD (с 100 компонентами) к TfidfVectorizer (мешок слов + TfidfVectorizer + TruncatedSVD + бинарная классификация). Снова я настроил параметры, используя обучающий и валидационный наборы, и точность и полнота были аналогично высокими на тестовом наборе. Когда я применил эту новую модель к вновь собранным данным, полнота немного улучшилась, с 40% до 50%, но точность немного снизилась, до 58%.

Итак, мой вопрос: существует ли способ использовать начальный набор размеченных документов для построения модели, которая может лучше обобщать на новый набор данных? Мой конкретный интерес заключается в определении описаний вакансий. Это не обязательно должно быть задачей бинарной классификации, так как описания не-вакансий могут быть гораздо более разнообразными, чем описания вакансий.

Question 2

Вам стоит хотя бы попробовать использовать предобученные векторные представления. TfidVectorizer особенно чувствителен к словам, которые отсутствуют в словаре, а такие слова, скорее всего, появятся, если вы применяете трансферное обучение в новой области. Векторные представления GloVe [1] имеют словарь из 400 тысяч векторов, и, если вы не работаете с документами из технической области, они должны дать некоторое улучшение. Также подумайте о проведении дополнительной обработки признаков, слова сами по себе не предоставляют много информации. Почему бы не попробовать добавить n-граммы и извлечение зависимостей, распознавание сущностей и т. д. в качестве этапов предварительной обработки?

[1] http://nlp.stanford.edu/projects/glove/

Как выявить новые описания вакансий/объявления из набора документов, имея набор уже размеченных описаний вакансий/объявлений.

Вопрос или проблема

Ответ или решение

1. Использование предварительно обученных векторных представлений

2. Расширение признаков

3. Классификация с использованием современных моделей

4. Повышение устойчивости к новым данным

5. Регуляризация и валидация

Заключение