- Вопрос или проблема
- Ответ или решение
- Сравнительный анализ BERT, Трансформеров, Self-Attention + LSTM и Attention + LSTM в задаче классификации научных STEM данных
- Введение
- 1. BERT и его возможности
- 2. FastText и GloVe
- 3. Создание собственных векторных представлений
- Альтернативные методологии: LSTM и Attention
- Self-Attention + LSTM
- Attention + LSTM
- Заключение
Вопрос или проблема
Я использовал предобученный BERT с Focal Loss для классификации физики, химии, биологии и математики и получил хороший макрос F-1 0.91. Это неплохо, учитывая, что ему нужно было искать токены, такие как triangle
, reaction
, mitochondria
и newton
и т.д. в более широком смысле. Теперь я хочу классифицировать также название главы. Это немного сложная задача, потому что, когда я обучал его на BERT для 208 классов, мой балл был почти 0. Почему? Я понимаю, что есть много информации, такой как nacl: sodium chloride
, bohr model
, 9.8 m/sec
и т.д., для которых, как мне кажется, BERT не обучен. Я хочу задать несколько вопросов.
- Полезен ли BERT в этих условиях? Он обучен на научных терминах? Я имею в виду, может ли он понять контекст
уравнения Шрёдингера
иконстанты Планка
? Если нет, я не думаю, что я должен его использовать, потому что у меня недостаточно данных, чтобы переобучить BERT. Все, кроме BERT - Могу ли я использовать FastText или GloVe? Могут ли они понять значение или контекст?
- Или мне просто стоит создать свои собственные эмбеддинги в
pytorch/keras
и оставитьnacl,fe,ppm
как есть, надеясь, что либоTransformer
, либоAttention
это поймает?
Пожалуйста, помогите. У меня есть 120K вопросов/данных.
A1. BERT сам по себе может быть не полезен для научных терминов. У вас есть 2 варианта: либо найти предобученные эмбеддинги, специфичные для научной текстовой базы данных, либо использовать перенос обучения и построить на основе BERT.
A2. FastText или GloVe будут иметь ту же проблему, что и BERT
A3. Вы упомянули, что BERT хорошо справляется на высоком уровне. Поэтому я бы не стал советовать вам создавать эмбеддинги с нуля и вместо этого использовать перенос обучения для улучшения эмбеддингов
Ответ или решение
Сравнительный анализ BERT, Трансформеров, Self-Attention + LSTM и Attention + LSTM в задаче классификации научных STEM данных
Введение
Классификация текстовых данных в области STEM (наука, технологии, инжиниринг и математика) представляет собой сложную задачу из-за разнообразия научной терминологии и контекста. В текущем контексте вы испытали BERT, достигнув хорошего значения F1-метрики (0.91) для базовой классификации, но столкнулись с проблемами при классификации названия глав с 208 классами. Рассмотрим, как различные модели (BERT, трансформеры, self-attention + LSTM и attention + LSTM) могут подойти для вашей задачи.
1. BERT и его возможности
BERT, основанный на архитектуре трансформеров, демонстрирует сильные результаты в обработке естественного языка, обучаясь на большом массиве текста. Тем не менее, BERT не был специально обучен на научных данных. Этот недостаток может объяснить низкие результаты при классификации названий глав, где требуется глубокое понимание специфической научной терминологии, такой как "Уравнение Шрёдингера" или "Постоянная Планка".
Чтобы улучшить результаты, можно рассмотреть два пути:
- Использование предобученных моделей для научной лексики: Наличие предобученных моделей, обученных на научных данных, таких как BioBERT или SciBERT, может значительно повысить эффективность BERT в вашей задаче.
- Трансферное обучение: Можно продолжить обучение BERT на вашем специфическом наборе данных, чтобы адаптировать его к вашим задачам.
2. FastText и GloVe
FastText и GloVe – это методы для представления слов, которые могут захватывать контекст, но они тоже ограничены в понимании специализированной лексики. Они не могут уловить значимость и взаимосвязь слов в контексте, как это делает BERT. Кроме того, если вы используете FastText или GloVe, вы также можете столкнуться с проблемами, аналогичными тем, что возникли при использовании BERT.
3. Создание собственных векторных представлений
Создание собственных векторных представлений слов в PyTorch или Keras может показаться разумным решением. Но, как показали ваши предыдущие результаты работы с BERT, требуется больше, чем просто векторные представления для достижения высокой производительности в сложных задачах классификации.
Ваша идея оставить научные термины такими, как "nacl", "fe", "ppm", может быть полезна, но её также следует дополнить используются уникальных подходов, таких как внедрение transfer learning на основе существующих моделей.
Альтернативные методологии: LSTM и Attention
Self-Attention + LSTM
Использование механизма self-attention вместе с LSTM может помочь сохранить контекст в длинных последовательностях. Однако это потребует значительной подготовки данных и настройки параметров. Стоит отметить, что стандартные LSTM могут не обеспечивать достаточный уровень сходимости в сложных задачах, так как они могут иметь трудности в захвате долгосрочных зависимостей.
Attention + LSTM
Attention механизмы могут быть полезными для выделения наиболее релевантной информации во входных данных. Комбинация механизма внимания и LSTM может дать более высокую производительность, чем простое использование LSTM. Это будет зависеть от успешного применения механизма вниманий к вашему набору данных.
Заключение
С учетом предыдущих выводов, BERT может оказаться полезным инструментом при учете специфической науки и использовании модели, предобученной на научных данных. Возможность использования FastText, GloVe или создания собственных векторных представлений требует обязательной проверки их эффективности. Рекомендуется исследовать и экспериментировать с расширениями BERT, такими как SciBERT или BioBERT, а также обратить внимание на возможности, предоставляемые LSTM и attention.
Данные предложения помогут вам лучше понять поведение различных подходов к классификации STEM данных и выбрать наиболее подходящее решение для ваших задач.