Что нам следует выбрать: модель последовательности или n-граммная модель и почему это зависит от соотношения образцов к словам на образец?

Question 1

Этот учебник по машинному обучению от Google анализирует набор данных отзывов с imdb, чтобы предсказать положительный или отрицательный тег. При выборе модели

Рассчитайте соотношение количества образцов/количество слов на образец.

Если это соотношение меньше 1500, токенизируйте текст как n-граммы и используйте простую многослойную перцептронную модель (MLP) для их классификации.

Если соотношение больше 1500, токенизируйте текст как последовательности и используйте модель sepCNN для их классификации (правая ветвь в блок-схеме ниже):

Назовем это соотношение “Количество образцов/Слов на образец” как “S/W”:

Позже учебник говорит:

Когда соотношение S/W мало, мы обнаружили, что модели n-грамм работают лучше, чем модели последовательностей.

Я пытаюсь придумать интуитивное объяснение почему это верно. В учебнике говорится:

Модели последовательностей лучше работают, когда существует большое количество небольших, плотных векторов. Это потому, что отношения вложений изучаются в плотном пространстве, и это происходит лучше всего при большом количестве образцов.

Теперь важно сказать, что при принятии решения на основе “S/W”, учебник Google не только пытался максимизировать точность, но и…

… оптимизировать лучшую точность, которая могла бы быть достигнута за минимальное возможное время вычислений

Таким образом, я помню о важном “балансе между высокой точностью и низким временем вычислений”, пытаясь понять:

почему при малом S/W следует использовать модель n-грамм
и при большом S/W следует использовать модель последовательностей

В частности, я пытаюсь понять в отношении числителя и знаменателя, например…

при фиксированном W (слов на образец), больший числитель S (количество образцов), увеличит соотношение S/W, и, следовательно, подтолкнет нас к модели последовательностей
при фиксированном S (количество образцов), меньший знаменатель W (слов на образец), также увеличит соотношение S/W, и, следовательно, подтолкнет нас к модели последовательностей

Обратите внимание, я не спрашиваю, почему MLP, SGB, SVM не могут работать с “векторами последовательностей” — для этого уже есть хороший вопрос, но я спрашиваю, почему вы бы выбрали подход n-граммовый vs последовательный подход на основе этого соотношения.

Question 2

Я думаю, что учебник ответил на мой вопрос, и я привел ответ, мне просто нужно хорошенько это понять:

Модели последовательностей лучше работают, когда существует большое количество небольших, плотных векторов. Это потому, что отношения вложений изучаются в плотном пространстве, и это происходит лучше всего при большом количестве образцов.

Подход n-граммов также называется подходом “мешка слов” и не передает модели ничего о порядке слов.

С векторным представлением n-грамм мы отбрасываем много информации о порядке слов и грамматике (в лучшем случае мы можем сохранить некоторую частичную информацию о порядке, когда n > 1). Это называется подходом мешка слов.

Также подход модели последовательностей использует нейронную сеть; нейронная сеть содержит скрытый слой, который будет изучать “вложения” (сходство слов)

Модели последовательностей часто имеют такой слой вложений в качестве первого слоя

Так почему же большое соотношение S/W подталкивает нас к подходу модели последовательностей?

Как правило, я думаю, что нейронные сети работают лучше с большим объемом данных; поэтому чем больше числитель (количество образцов), тем лучше мы можем сделать с нейронной сетью (конкретно рекомендуется RNN для модели последовательностей в отличие от MLP, рекомендуемой для модели n-граммов/мешка слов)

И как объяснил учебник, чем более “плотные” образцы (т.е. меньший числитель (количество слов на образец)), тем лучше шанс, что нейронная сеть сможет “понять сходство слов” (вложения).

Интуитивно я предполагаю, что это имеет смысл для моего наивного человеческого разума; эти “плотные” предложения помогают мне лучше учить ассоциации слов…

['Ascend to go up', 'Descend to go down']

Но, возможно, я должен рассмотреть и другие вещи,

например, тип документа/письма (примеры, которые я привел выше, очень целенаправленные и “инструктивные” по тону)

или размер словаря

И, возможно, больше всего, ответ “почему” — это просто потому, что “они тестировали разные подходы, основанные на соотношении” (своего рода гипер-гипер настройка!),
иными словами, они провели массу тестов, нашли, что соотношение является значимым “параметром набора данных”, который в конечном итоге проходит “порог” в компромиссе между точностью модели и временем выполнения.

Мы провели большое количество (~450K) экспериментов по различным типам задач (особенно анализу настроений и проблемам классификации тем), используя 12 наборов данных, поочередно для каждого набора данных, меняя методы предварительной обработки данных и архитектуры моделей. Это помогло нам определить параметры набора данных, которые влияют на оптимальный выбор.

Что нам следует выбрать: модель последовательности или n-граммная модель и почему это зависит от соотношения образцов к словам на образец?

Вопрос или проблема

Ответ или решение

Последовательные модели и n-граммные модели: Основные различия

Понимание зависимости от S/W

Почему выбор важен для бизнеса