Вопрос или проблема
Рейтингующий дискриминатор D(z1, z2, z3 ) ∈ [0, 1] должен быть высоким, если
_z1 ∼ p1 , z2 ∼ p2 , z3 ∼ p3 _ и низким в противном случае. Для нахождения потерь и оптимального дискриминатора D(z1 , z2 , z3 ) следует ли мне изменить потери GAN или модель Бредли-Терри для этой задачи?
Ответ или решение
Вопрос о том, как правильно определить дискриминатор ранжирования ( D(z_1, z_2, z_3) ), который высок, если ( z_1 \sim p_1 ), ( z_2 \sim p_2 ), ( z_3 \sim p_3 ), и низок в противном случае, поднимает две интересные методологии: модификацию функции потерь GAN и применение модели Брэдли-Терри.
-
Модификация функции потерь GAN:
Для задачи ранжирования можно использовать подход, похожий на GAN, но с учетом особенностей ранжирования. Традиционный GAN обучает дискриминатор различать между истинными и поддельными данными, а в нашем случае дискриминатор должен оценивать пары (или тройки) данных на основе их вероятностного распределения.Потеря дискриминатора может быть сконструирована следующим образом:
[
\mathcal{L}{D} = -\mathbb{E}{(z_1, z_2, z3) \sim p{real}}[\log D(z_1, z_2, z3)] – \mathbb{E}{(z_1′, z_2′, z3′) \sim p{fake}}[\log(1 – D(z_1′, z_2′, z3′))]
]
Здесь ( p{real} ) — это распределение реальных данных, а ( p_{fake} ) — распределение сгенерированных данных. Дискриминатор будет учиться максимизировать вероятность того, что три образца являются «реальными», если они происходят из соответствующих распределений. -
Модель Брэдли-Терри:
Модель Брэдли-Терри часто используется для оценки вероятностей параллельных сравнений и может быть адаптирована для вашего случая. Вместо бинарного сравнения, вы можете рассмотреть вероятности для всех возможных пар ( (z_1, z_2), (z_1, z_3), (z_2, z_3) ). В этом контексте можно определить функцию потерь, которая будет базироваться на логистической регрессии, чтобы определить относительные вероятности для каждого из образцов:
[
D(z_1, z_2, z3) = \frac{e^{\theta{12}}}{e^{\theta{12}} + e^{\theta{21}}} \cdot \frac{e^{\theta{13}}}{e^{\theta{13}} + e^{\theta{31}}} \cdot \frac{e^{\theta{23}}}{e^{\theta{23}} + e^{\theta{32}}}
]
Здесь ( \theta_{ij} ) — параметры, отвечающие за относительное качество ( z_i ) по сравнению с ( z_j ). -
Рекомендация:
Мы рекомендуем использовать комбинацию обоих методов. Модификация GAN может быть полезной для обучения дискриминатора, а модель Брэдли-Терри может помочь интерпретировать результаты и согнать вероятностный выхлоп к требуемому виду.
Таким образом, ваша задача требует интеграции этих подходов для создания robust-решения для ранжирования и оценки дискриминатора. Важно экспериментировать с различными архитектурами и функциями потерь, чтобы определить наиболее оптимальное решение для вашей конкретной задачи.