Обучающие метки в классификационных моделях в контексте больших языковых моделей.

Question 1

Я прохожу курс по LLM, и наш преподаватель сказал нечто, что привело меня к идее и вопросу. На тему дообучения с использованием инструкций он сказал:

Обучающая выборка должна содержать множество пар «подсказка-ответ», каждая из которых должна содержать инструкцию. Во время дообучения вы выбираете подсказки из обучающей выборки и передаете их LLM, который затем генерирует ответы. Далее вы сравниваете ответы LLM с ответом, указанным в обучающих данных. Помните, что вывод LLM – это распределение вероятностей по токенам. Поэтому вы можете сравнить распределение завершения и распределение метки из обучающих данных, а затем использовать стандартную функцию кросс-энтропии, чтобы вычислить потерю между двумя распределениями токенов.

Я задаю вопрос в контексте LLM, но эта же концепция может применяться к supervised learning в целом. Вместо того чтобы метки были единственным «правильным» ответом, что если бы они были распределениями потенциально правильных ответов?

Например, если подсказка была бы:

«Классифицируйте этот отзыв: Это было не плохо.»

Вместо того чтобы пометить сентимент как «Положительный», что если бы мы хотели, чтобы результат был «Положительный» 60% времени и «Нейтральный» 40% времени.

Спросив по-другому, вместо того чтобы рассматривать классификационные задачи как имеющие только один правильный ответ, проводили ли люди эксперименты с обучением классификационных моделей (LLM или других), где правильный ответ представлен набором меток, каждая из которых имеет свою вероятность? Моя интуиция подсказывает, что это может помочь предотвратить переобучение моделей и может помочь им лучше обобщать. Особенно учитывая, что в реальной жизни вещи редко удобно вписываются в категории.

Question 2

Если я вас правильно понял, вы говорите о том, что известно как мягкая маркировка.

По данным Гальстяна и Коэна (2007):

«Мягкая метка – это такая, которая имеет прикрепленный к ней балл (вероятность или вероятность). Таким образом, элемент является членом рассматриваемого класса с вероятностью/баллом вероятности, например, 0.7; это подразумевает, что элемент может быть членом нескольких классов (предположительно с различными баллами членства), что обычно невозможно с жесткими метками.»

Исследования в этом направлении ведутся как для традиционных моделей машинного обучения, так и для нейронных сетей, включая LLM, некоторые из которых:

Сглаживание меток
Калибровка уверенности

В настоящее время существует множество приложений, где это используется, такие как модели медицинской диагностики и модели классификации изображений (в целом, случаи, когда возможно наличие нескольких условий или нескольких объектов), а также многими другими. Потенциальные преимущества с точки зрения производительности модели, обобщения довольно многообещающие.

Вот несколько примеров DeepLearning от NVIDIA, где вы можете найти, например, это применение в разделе классификации изображений.

Обучающие метки в классификационных моделях в контексте больших языковых моделей.

Вопрос или проблема

Ответ или решение

Понятие софт-меток

Применение софт-меток в классификационных моделях

Исследования и практическое применение

Заключение