Вопрос или проблема
PMI-матрица и уменьшение с использованием PCA: На основе количества раз, когда 2 слова появляются вместе (в определенном заранее заданном окне), и индивидуальной частоты слов, мы строим PMI-матрицу. Затем уменьшаем ее с помощью PCA, чтобы получить плотные представления каждого слова в корпусе, которые способны уловить некоторую семантику текста.
CBOW: Обучение представлений слов через нейронную сеть, конечная цель которой — максимизировать вероятность правильных пар слов. Значения вероятности известны заранее путем подсчета количества раз, когда слово появляется в контексте другого слова в обучающих данных.
Оба этих метода используют подсчеты и затем получают плотное представление слова. Есть ли определенное преимущество одного метода над другим? Зачем вообще был введен CBOW, если первый метод выполняет точно такую же работу?
Существует несколько различий:
- CBOW не эквивалентен факторизации матрицы PMI, это SkipGram, чья функция потерь минимизируется, когда $W^\top C=PMI$ (см. статью Голдберга и Леви, 2014)
- SkipGram не эквивалентен PCA матрицы PMI, так как функция потерь не является функцией потерь наименьших квадратов (снова см. Голдберг и Леви, 2014 или “What the vec? … ” Аллен и др., 2019)
Не было известно, что SkipGram имеет какое-либо отношение к PMI, когда алгоритм был впервые предложен (Миколов и др., 2014). Установив связь, Голдберг и Леви показывают сравнения встраиваний W2V и PCA PMI и они демонстрируют в целом сопоставимую производительность в некоторых задачах.
Ответ или решение
Конечно, давайте подробно рассмотрим различия между подходом CBOW и методикой построения PMI-матрицы с последующим использованием PCA, опираясь на структуру TEA: Теория, Пример, Применение.
### Теория
CBOW (Continuous Bag of Words) и методика PMI (Pointwise Mutual Information) с использованием Principal Component Analysis (PCA) представляют собой два различных подхода к получению плотных представлений слов, каждый из которых использует уникальные математические и алгоритмические методы.
#### CBOW
CBOW — это метод, основанный на нейронных сетях, цель которого — максимизация вероятности правильных пар слов. Этот подход обучает модель предсказывать центральное слово по контексту, используя заранее известные вероятности, полученные из количества раз, которое слово встречается в контексте другого слова в обучающих данных. Это метод индуктивного обучения, использующий стохастический градиентный спуск для оптимизации.
#### PMI с PCA
Метод PMI строит матрицу на основе вероятностей совместного появления пар слов в определённом окне текста по отношению к их индивидуальной частотности. Это величина, показывающая, насколько выше (или ниже) реальная частота совместного появления пары слов относительно предположений о независимости. Далее Principal Component Analysis (PCA) используется для снижения размерности этой матрицы и получения плотных векторных представлений слов, что позволяет улавливать семантические связи.
### Пример
Рассмотрим текстовый корпус. Сначала, используя PMI, мы строим из этих данных матрицу размером MxN, где M и N — количество уникальных слов. Например, если слово “машина” часто встречается рядом с “поездка”, их PMI будет высоким.
В CBOW модель обучали бы на предсказании слова “машина”, зная его контекст (например, “поездка”), стремясь максимизировать схожесть предполагаемых слов для данной последовательности.
### Применение
Каждый метод имеет свои преимущества и области применения. PMI с PCA хорошо подходит для задач, где важна интерпретируемость, поскольку построение PMI-матрицы и её последующее сокращение позволяют более развернуто анализировать веса и связи. Методы основанные на PMI-PCA более прозрачны, но могут быть вычислительно интенсивными и не столь устойчивыми к редким событиям.
CBOW, с другой стороны, часто демонстрирует лучшее качество предсказаний в условиях большого количества данных и быстрее обучается благодаря нейронным сетям. Этот метод более гибок к изменениям в данных и масштабируем для больших корпусов.
В заключении, выбор между CBOW и PMI с PCA на практике зависит от конкретной задачи, доступных вычислительных ресурсов и требований к интерпретируемости результатов. Стоит также учитывать, что на момент появления CBOW его возможности не были полноценным образом коррелированны с PMI. Исследования показали, что несмотря на разные подходы, оба метода могут показывать сопоставимые результаты в некоторых задачах.