Можно ли использовать LSTM или предобученный BERT для Masked LM для предсказания измененного слова в предложении, используя небольшой набор данных? (2000 образцов)

Содержание

Вопрос или проблема
Ответ или решение
Использование LSTM или предобученного BERT для предсказания измененных слов в предложении на небольшом наборе данных
1. LSTM и его применение
2. Предобученный BERT
Рекомендации по выбору
Заключение

Вопрос или проблема

У меня есть небольшой набор данных (2000 образцов) заголовков газет и их забавных аналогов, где изменено только одно слово, чтобы звучало глупо, например:

Оригинальный заголовок: Полицейский <офицер> арестован за злоупотребление властью

Юмористический заголовок: Полицейская <собака> арестована за злоупотребление властью

Я хочу обучить модель для предсказания измененного предложения по оригиналу. Я планирую реализовать две модели для этой задачи: одну для бинарной разметки входных последовательностей (нужно ли менять слово в предложении) и одну для предсказания предложений с измененными словами.

Пример входных данных Модели 1: Полицейский офицер арестован за злоупотребление властью

Пример выходных данных Модели 1: <без изменения> <изменить> <без изменения> <без изменения> <без изменения> <без изменения>

Пример входных данных Модели 2: Полицейский <…> арестован за злоупотребление властью

Пример выходных данных Модели 2: Полицейская собака арестована за злоупотребление властью

Я собираюсь использовать модель RNN/LSTM для разметки последовательностей. Что касается задачи предсказания измененного слова, я подумываю использовать либо LSTM (конкатенация двух параллельных слоев LSTM – один для работы вперед по левому контексту слова и другой для работы назад по правому контексту), либо дообучение BERTForMaskedLM из huggingface/transformers.

Вопрос в том, будет ли это уместно с учетом небольшого количества данных, или мне стоит перейти на другие модели?

Обе двунаправленные LSTM (как ELMo), так и BERT кажутся подходящими для этой задачи. Какая из них будет работать лучше, можно узнать только через тестирование.

Если вы используете BERT, убедитесь, что применяете типичные меры для избежания переобучения. Если вы применяете LSTM, вам, вероятно, понадобятся меры регуляризации.

Ответ или решение

Использование LSTM или предобученного BERT для предсказания измененных слов в предложении на небольшом наборе данных

В контексте вашей задачи, связанной с прогнозированием измененных слов в предложениях, обладающими характеристиками юмора, выбор между LSTM и предобученной моделью BERT имеет свои особенности и потенциальные преимущества. Рассмотрим каждый из подходов подробнее.

1. LSTM и его применение

LSTM (Long Short-Term Memory) — это разновидность рекуррентной нейронной сети, идеально подходящая для обработки последовательных данных.

Преимущества:

Гибкость в работе с последовательностями: LSTM эффективно передает информацию на долгие расстояния в пределах последовательности, что может помочь в понимании контекста вокруг изменяемого слова.
Обучаемость на небольших данных: Несмотря на свои глубокие архитектуры, LSTM может быть настроен для работы с небольшими объемами данных, хоть и существует риск переобучения.

Недостатки:

Потенциал переобучения: Набор данных из 2000 образцов достаточно мал для LSTM, и без надлежащей регуляризации модель может подгонять данные вместо того, чтобы обобщать.
Неоптимальное извлечение признаков: Находится в нежелательном положении по сравнению с трансформерами, поскольку LSTM обучает представления, осредняя информацию по временным шагам.

Чтобы избежать переобучения в модели LSTM, рекомендуется внедрить регуляризацию, такую как Dropout, и настроить архитектуру с учетом количества данных.

2. Предобученный BERT

BERT (Bidirectional Encoder Representations from Transformers) — это современный подход, использующий механизм внимания для обработки текстов.