Вопрос или проблема
Я понимаю, что в случае трансферного обучения целевые и исходные данные могут иметь разные распределения по доменам. В таких случаях авторам во многих статьях предлагают сблизить маргинальные и условные распределения целевых и исходных данных, т.е. минимизировать разницу между маргинальными и условными распределениями. Может ли кто-нибудь помочь мне понять это, приведя интуитивное объяснение? Я не могу понять, что именно автор имеет в виду, когда говорит о сближении распределений? Объяснения с использованием визуальных представлений были бы полезны.
Сближение распределений означает, что мы пытаемся изменить исходные данные, обычно выполняя взвешивание для экземпляров или для признаков (или для обоих в гибридных алгоритмах), чтобы сделать весовые данные более похожими на целевые данные. Если мы достигнем этого, то сможем обучить модель, учитывая также исходные данные, которые, как правило, имеют больший объем или хорошо аннотированы по сравнению с целевыми данными.
Ответ или решение
В контексте обучения с переносом, необходимо понимать, что целевые и исходные данные могут происходить из различных распределений, что может значительно повлиять на качество модели, которую мы обучаем. Процесс «приближения распределений» относится к методам, которые позволяют нашим исходным данным (source domain) стать более похожими на целевые данные (target domain), что в свою очередь улучшает обобщающую способность обучаемой модели.
Что такое маргинальное и условное распределение?
-
Маргинальное распределение (marginal distribution) — это распределение переменной, игнорируя влияние других переменных. В контексте нашей задачи, это распределение целевой переменной для общих данных.
-
Условное распределение (conditional distribution) — это распределение одной переменной при условии, что другая переменная принята как фиксированная. Это важный аспект, так как часто мы хотим понять взаимосвязь между различными переменными в наборе данных.
Зачем «приближать» распределения?
-
Снижение смещения (Bias): Разные распределения могут привести к сильному смещению модели, так как она может не хорошо предсказывать на новом, несоответствующем наборе данных.
-
Улучшение обобщающей способности: Если обучаемая модель видит схожие данные во время обучения, она будет лучше предсказывать на новых, незнакомых данных.
Интуитивное объяснение
Представьте себе, что у вас есть два набора данных (исходный и целевой) с различными распределениями. Мы можем мысленно представить эти наборы данных в виде гистограмм. Если одна гистограмма нарисована с использованием зеленого цвета (исходные данные), а другая — с использованием синего цвета (целевые данные), то разница между ними может быть значительной.
Чтобы переместить одну гистограмму к другой, вы можете:
-
Изменить веса: Например, если некоторые примеры из исходного набора данных имеют меньшую значимость, вы можете присвоить им меньшее влияние (вес) при обучении.
-
Изменить характеристики: Можно использовать методы, такие как индукция изобилии (instance weighting) или трансформации признаков (feature transformation), чтобы создать более гармоничное распределение.
Визуальные репрезентации
-
Гистограммы:
- Рисунок 1: Гистограмма исходных данных с одной формой.
- Рисунок 2: Гистограмма целевых данных с другой формой.
- Рисунок 3: Гистограмма, показывающая адаптированные исходные данные, приближающиеся к форме целевых данных.
-
Картинки векторных пространств:
- Рисунок 4: Показать точки в пространстве характеристик, где разные цвета представляют разные распределения (исходное и целевое).
- Рисунок 5: После применения методов администрирования, точки перераспределены и более плотно группируются в одно место, показывая, что они стали более схожими.
Заключение
Общая цель коррекции маргинальных и условных распределений в трансферном обучении заключается в том, чтобы уменьшить различия между исходными и целевыми данными для достижения наилучших моделей предсказания. Это достигается через переработку исходных данных с использованием различных методов, таких как взвешивание экземпляров или трансформация признаков. Как результат, модель получает возможность учиться на более согласованных данных, что, в конечном счете, ведет к улучшению её производительности на целевых данных.