Вопрос или проблема
Я прохожу курс по LLM, и наш преподаватель сказал нечто, что привело меня к идее и вопросу. На тему дообучения с использованием инструкций он сказал:
Обучающая выборка должна содержать множество пар «подсказка-ответ», каждая из которых должна содержать инструкцию. Во время дообучения вы выбираете подсказки из обучающей выборки и передаете их LLM, который затем генерирует ответы. Далее вы сравниваете ответы LLM с ответом, указанным в обучающих данных. Помните, что вывод LLM – это распределение вероятностей по токенам. Поэтому вы можете сравнить распределение завершения и распределение метки из обучающих данных, а затем использовать стандартную функцию кросс-энтропии, чтобы вычислить потерю между двумя распределениями токенов.
Я задаю вопрос в контексте LLM, но эта же концепция может применяться к supervised learning в целом. Вместо того чтобы метки были единственным «правильным» ответом, что если бы они были распределениями потенциально правильных ответов?
Например, если подсказка была бы:
«Классифицируйте этот отзыв: Это было не плохо.»
Вместо того чтобы пометить сентимент как «Положительный», что если бы мы хотели, чтобы результат был «Положительный» 60% времени и «Нейтральный» 40% времени.
Спросив по-другому, вместо того чтобы рассматривать классификационные задачи как имеющие только один правильный ответ, проводили ли люди эксперименты с обучением классификационных моделей (LLM или других), где правильный ответ представлен набором меток, каждая из которых имеет свою вероятность? Моя интуиция подсказывает, что это может помочь предотвратить переобучение моделей и может помочь им лучше обобщать. Особенно учитывая, что в реальной жизни вещи редко удобно вписываются в категории.
Если я вас правильно понял, вы говорите о том, что известно как мягкая маркировка.
По данным Гальстяна и Коэна (2007):
«Мягкая метка – это такая, которая имеет прикрепленный к ней балл (вероятность или вероятность). Таким образом, элемент является членом рассматриваемого класса с вероятностью/баллом вероятности, например, 0.7; это подразумевает, что элемент может быть членом нескольких классов (предположительно с различными баллами членства), что обычно невозможно с жесткими метками.»
Исследования в этом направлении ведутся как для традиционных моделей машинного обучения, так и для нейронных сетей, включая LLM, некоторые из которых:
- Сглаживание меток
- Калибровка уверенности
В настоящее время существует множество приложений, где это используется, такие как модели медицинской диагностики и модели классификации изображений (в целом, случаи, когда возможно наличие нескольких условий или нескольких объектов), а также многими другими. Потенциальные преимущества с точки зрения производительности модели, обобщения довольно многообещающие.
Вот несколько примеров DeepLearning от NVIDIA, где вы можете найти, например, это применение в разделе классификации изображений.
Ответ или решение
Вопрос о тренировочных метках в классификационных моделях, особенно в контексте больших языковых моделей (LLM), является актуальным и многогранным. Ваша идея о софт-метках (soft labeling) действительно находит свое применение в современных методах машинного обучения и может привести к значительному улучшению обобщающих способностей моделей.
Понятие софт-меток
Софт-метка — это метка, к которой прикреплен оценочный балл (вероятность или вероятность принадлежности) для элемента, который может быть отнесен к нескольким классам, каждый из которых имеет свою степень уверенности. Например, в вашем случае, оценка сентимента отзыва может быть представлена как "Положительный" с вероятностью 60% и "Нейтральный" с вероятностью 40%. Это более реалистичный подход, учитывающий неоднозначность реальных данных.
Применение софт-меток в классификационных моделях
-
Устойчивость к переобучению: Использование вероятностных меток может помочь моделям не заучивать данные, а учиться различать паттерны, которые присутствуют в обучающем наборе, и тем самым улучшить обобщающую способность. Это особенно полезно в условиях, когда данные сложно однозначно классифицировать.
-
Обработка многоклассовых задач: Софт-метки могут быть особенно полезны в задачах, где множество классов могут пересекаться. К примеру, в медицинской диагностике или многоклассовой классификации изображений, где один объект может быть одновременно частью нескольких классов, но с разными степенями уверенности.
-
Изучение отклонений модели: Модели, основанные на софт-метках, часто легче интерпретировать. Например, если модель предсказывает, что отзыв с 60% вероятностью положительный и с 40% нейтральный, это может дать возможность лучше понять причины выбора модели.
Исследования и практическое применение
Исследования, такие как работы Гальстяна и Коэна (2007), показывают, что использование софт-меток может привести к повышениям качества в обучении моделей как на традиционных алгоритмах машинного обучения, так и на нейронных сетях, включая LLM. Примеры применения включают:
-
Сглаживание меток (Label Smoothing): Эта техника включает уменьшение уверенности в "правильных" метках во время обучения, что способствует лучшей обобщающей способности модели.
-
Калибровка доверия (Confidence Calibration): Метод, который помогает сделать вероятностные предсказания более точными, особенно для сложных разметок.
Заключение
Итак, действительно, существует множество примеров и исследований в области применения вероятностных меток как в LLM, так и в других областях машинного обучения. Эти методы могут улучшить качество классификации и повысить устойчивость модели к переобучению. Практическое использование софт-меток расширяет возможности обучения и способствует созданию более гибких и адаптивных моделей, которые лучше соответствуют сложной природе реальных данных.
Таким образом, идея о применении распределений вероятностей для меток вместо жестких категорий не только теоретически оправдана, но и практично реализуема, что подтверждается успехами в различных направлениях исследований и применений.