Почему в общем случае значение температуры 0.7 является значением по умолчанию для LLMs?

Вопрос или проблема

Я недавно прочитал много документации и статей о крупных языковых моделях (LLMs) и пришел к выводу, что 0.7 чаще всего является значением по умолчанию для параметра температуры.

Ниже представлены несколько примеров, где значение по умолчанию либо 0.7, либо 0.75:

Тем не менее, я затрудняюсь найти какие-либо ссылки, которые объяснили бы обоснование использования значения 0.7.

Я понимаю, что более низкие значения температуры приводят к более детерминированным выводам, а более высокие – к более случайным.

Тем не менее, почему рекомендуется выбирать температуру 0.7, а не 0.6 или 0.4, например?

В отличие от этого, в “Техническом отчете GPT-4” авторы используют значение 0.6 в качестве “наилучшей догадки”. См. https://arxiv.org/pdf/2303.08774.pdf, стр.24.

Итак, мой вопрос сводится к следующему:

– Является ли это чисто эмпирическим, или существуют ли какие-либо эталонные значения, или математические уравнения, которые могли бы обосновать подход к выбору температуры, близкой к 0.7?

Если это чисто эмпирическое, каковы были эмпирические причины, приведшие к принятию значений, близких к 0.7? (например, это связано с параметрами по умолчанию, использованными в высоко цитируемой статье? в широко используемой библиотеке? и т.д.)

Спасибо

1.0 является значением по умолчанию, нейтральным. Это означает, что установка на 1 не оказывает влияния на следующий токен, как если бы он был выбран из softmax логитов без какого-либо влияния

Ответ или решение

Температурный параметр в больших языковых моделях (LLM) имеет ключевое значение для контроля за степенью случайности, которая используется при генерации текста. Чем выше температура, тем более случайными становятся выходные данные модели, и наоборот. Значение температуры 0,7 часто выбирается в качестве дефолтного по нескольким причинам, которые включают как теоретические соображения, так и эмпирические доказательства.

Теория: Управление Энтропией и Случайностью

Температура в LLMs управляет распределением вероятностей, которые используются для выбора следующего токена. При температуре, равной 1, модель выбирает токены в соответствии с их вероятностями, полученными путем мягкого максимума. Значения ниже 1 уменьшают энтропию, повышая вероятность выбора токенов с более высокой вероятностью и делая выходные данные модели более детерминированными. Значения выше 1 увеличивают энтропию, что приводит к более разнообразным, но потенциально менее последовательным ответам.

Выбор температуры 0,7 как дефолтного значения обеспечивает баланс между этими двумя крайностями: разнообразие и креативность генеративного процесса, а также поддержание основной последовательности и осмысленности текста. Этот компромисс является важным при создании текстов, которые должны быть гибкими и интересными, но одновременно и достаточно надежными.

Пример: Применение в известных платформах LLM

Многие платформы, предоставляющие доступ к языковым моделям, такие как OpenAI и Rasa, используют 0,7 в качестве стандартного значения температуры (согласно предоставленным ссылкам). Это значение выбирается на основе опыта применения моделей в различных контекстах, где оно показывает наилучшее сочетание качества и креативности выходных данных.

Например, платформа OpenAI в своей документации указывает, что при температуре 0,7 достигается высокая степень креативности без полной потери вписывания в контексты, которые бывают при увеличении температуры до 1 и выше. Это обеспечивает пользователям возможность генерировать тексты, которые сохраняют плавность и не теряют общей согласованности тем.

Применение: Эмпирические и Исторические Причины

Эмпирические наблюдения показывают, что температура 0,7 часто используется в библиотеке как универсально эффективный параметр для большинства задач по обработке естественного языка. В частности, использование температурного параметра 0,7 может быть исторически обосновано через исследований и публикаций, связанных с разработкой LLM. Его широкое и обоснованное использование в разработках и экспериментах, которые проводились исследователями ведущих институтов и коммерческих компаний, привело к распространенному убеждению в его эффективности как стандарта де-факто.

Также существует возможность, что значение 0,7 исторически принималось в первых версиях наиболее успешных моделей или библиотек, часто используемых разработчиками, таких как GPT-2 и последующие. Эти ранние успехи способствовали восприятию 0,7 как “золотого среднетемпературного значения” для получения сбалансированных результатов.

В заключение, выбор 0,7 в качестве значения температуры для LLM основывается на совокупности теоретических обоснований, практического опыта использования, а также исторических решений, которые сформировали современную практику работы с языковыми моделями. Это значение позволяет уравновешивать степень случайности вывода с сохранением его логической и концептуальной структуры, что делает его популярным среди разработчиков и исследователей в области генерации текстов.

Оцените материал
Добавить комментарий

Капча загружается...