Изучение моделей для немутуально исключающих событий/меток, кроме многометочной классификации.

Содержание

Вопрос или проблема
Ответ или решение
Обучение моделей для немутуально-исключающих событий/меток вместо многометочной классификации
Теория
Пример
Применение

Вопрос или проблема

У меня есть следующий датафрейм (в широком формате), который фиксирует IQ, Hours (количество часов учебы) и Score (оценки на прошлом экзамене для студентов 1,2,3,4 в разных классах (Class_ID), и я хотел бы использовать эти характеристики, чтобы предсказать, кто займет первые два места в своем классе (Top_1, Top_2, Top_3, Top_4)

Class_ID IQ_1 IQ_2 IQ_3 IQ_4 Hours_1 Hours_2 Hours_3 Hours_4 Score_1 Score_2 Score_3 Score_4 Top_1 Top_2 Top_3 Top_4
1        101  99   130  100  10      19      3       12      98      80      95      88      1     0     1     0          
2        93   103  112  200  5       9       12      10      50      88      99      100     0     0     1     1     
3        100  102  101  102  12      13      17      9       84      88      89      98      0     1     0     1

Таким образом, наиболее естественным классом моделей для этой задачи с несколькими метками является многометочная классификация. Однако обычно в многометочных классификациях вероятности в любом конкретном примере обучения/строке не суммируются до какого-либо фиксированного числа. В моем конкретном случае использования вероятности P(Top_1)+P(Top_2)+P(Top_3)+P(Top_4) всегда должны быть равны 2 (всегда будет 2 студента, которые в итоге займут первые два места по определению). Я хотел бы спросить, есть ли способ добавить это ограничение в такие пакеты, как xgboost или lightgbm? Полагаю, мы можем “нормализовать” вероятности, чтобы они суммировались до 2, но это не кажется очень естественным, поскольку, например, если у нас есть результат [0.01, 0.00333, 0.00333, 0.00333] (т.е. модель не очень уверена в том, кто из студентов займет первые два места), он будет нормализован до [1, 0.333, 0.333, 0.333], давая 100% вероятность того, что студент 1 займет одно из первых двух мест.

Ответ или решение

Обучение моделей для немутуально-исключающих событий/меток вместо многометочной классификации

Теория

Когда мы сталкиваемся с задачей классификации, в которой предполагается, что метки события не являются взаимоисключающими, мы имеем дело с задачей многометочной классификации, причем для конкретного случая, когда сумма вероятностей по предсказанным меткам должна быть фиксированной (в данном случае равной 2). В традиционном подходе к многометочной классификации используются модели, которые независимы друг от друга, что препятствует выполнению условий на сумму вероятностей. Однако, для решения задачи, где должны учитываться такие ограничения, могут быть применены более продвинутые методы и подходы.

Пример

Рассмотрим датасет, в котором фиксируется информация о студентах (IQ, количество часов обучения и предыдущие результаты экзаменов), и задача заключается в предсказании двух студентов, которые займут верхние позиции в классе. В традиционных системах, таких как XGBoost или LightGBM, модели многометочной классификации предполагают независимость меток, что затрудняет выполнение заданных ограничений.

Применение

Для решения этой проблемы можно рассмотреть следующие подходы:

Позиционный регрессор: Вместо предсказания вероятностей для каждой отдельной метки можно создать модель, которая будет предсказывать ранжирование студентов. Такие модели могут быть построены с использованием ранжировочных алгоритмов, которые встроены в библиотеки, такие как XGBoost и LightGBM.
Модифицированные функции потерь: Внедрение кастомных функций потерь, которые учитывают ограничения по суммарной вероятности, может быть и эффективным. Это сложная, но возможная реализация, где оптимизационный процесс будет настроен так, чтобы суммы вероятностей соответствовали заданным условиям.
Байесовские подходы: Модель Байеса может использоваться для оценки вероятностей и их последующего обновления с учетом заданных ограничений, обеспечивая при этом соблюдение условия, что сумма вероятностей равна 2.
Жадные алгоритмы: Использование жадных алгоритмов для поиска топовых классов. Они могут последовательно выбирать лучшие по вероятности классы, корректируя вероятности остальных.

Применение вышеупомянутых методов требует гибкого подхода к настройке моделей и функционалу библиотек. Например, использование кастомизированных функций потерь возможно только при наличии достаточного опыта и знаний о внутренней архитектуре используемой системы.

Таким образом, несмотря на ограничения стандартных методов многометочной классификации, реализация одного из вышеперечисленных подходов позволит значительно улучшить результаты предсказания и обеспечить соответствие специфическим бизнес-требованиям.