Как мне рассчитать AUROC, если мои (TPR,FPR) не доходят до (1,1)? Следует взять только площадь под кривой или включить 1 и рассчитать?

Вопрос или проблема

Я запускаю модель, которая генерирует обнаружения песен с коэффициентом уверенности. Затем я проверяю ее на аннотированном наборе данных. После этого я строю график значений TPR и FPR при каждом пороге уверенности, начиная с 0 до 1 с шагом 0.01. Это моя ROC-кривая. FPR модели никогда не превышает 0.03. Так, следует ли мне рассчитывать AUROC, экстраполируя крайние точки до (0,0) и (1,1), или он должен быть только между точками, которые у меня есть? Потому что эта модель показывает высокий TPR при низком FPR. Я не уверен, как это интерпретировать.Модель ROC - рассчитано AUC с помощью встроенной функции в R.

.

Ответ или решение

Чтобы ответить на ваш вопрос о вычислении AUROC (Area Under the Receiver Operating Characteristic Curve), нужно сначала понять, что представляет собой сам ROC-кривая и почему ее нужно связывать с AUROC. ROC-кривая является графическим представлением соотношения истинноположительных (True Positive Rate, TPR) и ложноположительных (False Positive Rate, FPR) при различных пороговых значениях классификации. И, соответственно, AUROC — это площадь под этой кривой, которая используется как метрика для оценки качества бинарных классификаторов.

Теория:

  1. ROC-кривая: Построение начинается с координат (0,0), когда все наблюдения классифицируются как "отрицательные", и движется к (1,1), где все классифицируются как "положительные". Таким образом, идеальный классификатор должен стремиться к точке (0,1), где TPR максимально высокий, а FPR минимальный.

  2. AUROC: Это скалярная величина, которая измеряет общую производительность классификатора. AUROC варьируется от 0 до 1, где 0.5 обычно означает случайную классификацию, а 1 — идеальную.

Пример:

Предположим, у вас есть классификатор, который вы тестируете на наборе валидируемых данных. Вы получаете значения TPR и FPR при изменении порогового значения с шагом 0.01, как вы описали. Ваша ROC-кривая оказалась ограниченной по FPR до 0.03, что может говорить о высокой чувствительности вашего классификатора при низкой ложноположительной частоте.

Применение:

  1. Интерполяция и Экстраполяция: Вы указали, что ваш FPR не превышает 0.03. Это не означает, что нужно автоматизированно переносить кривую к точке (1,1). Стандартная практика заключается в том, чтобы вычислять площадь под той частью кривой, которая доступна, без искусственного расширения данных.

  2. Причины не выполнять интерполяцию: Включение гипотетических точек, таких как (1,1), может исказить представление о реальной производительности модели. Это может создать формально более высокое значение AUROC, но при этом оно не будет отражать действительное поведение классификатора вне диапазона, в котором он был тестирован.

  3. Недостатки высокой чувствительности на низком FPR: Хотя высокая TPR при низком FPR выглядит привлекательной, это может не дать полного понимания, насколько модель работает при более высоких значениях FPR. Это может свидетельствовать о необходимости дальнейших исследований для проверки, как модель ведет себя при других порогах или на тестовых наборах данных.

  4. Практическое использование: Если вы проводите сравнительный анализ с другими моделями или настройками, которые также демонстрируют ограниченную область FPR, вы должны сопоставлять их на одном уровне. Однако для иных задач может потребоваться оценка всех доступных точек на основе детальных оценок бизнес-контекста и влияния риска ошибочных классификаций.

Таким образом, для расчета AUROC вы должны использовать данные, которые вы фактически имеете, без добавления экстремальных точек. Это даст наиболее честное представление о производительности модели в интересующем вас диапазоне FPR и TPR. В дальнейшем вы, возможно, пожелаете исследовать модель в широком диапазоне сценариев, чтобы реально оценить ее гибкость и стабильность.

Оцените материал
Добавить комментарий

Капча загружается...