Сколько нечестных пользователей будет заблокировано, чтобы остановить одно мошенничество, исходя из данной матрицы ошибок?

На чтение 3 мин Опубликовано 08.10.2024

Вопрос или проблема

Один из вопросов недавнего онлайн-теста, на который я не смог ответить, выглядит следующим образом (я не смог скопировать точный вопрос, поэтому это полностью из памяти. Прошу прощения за возможные неточности в формулировке.)

У нас есть модель классификации мошенничества, матрица ошибок которой представлена ниже. Сколько неподысканных транзакций модель заблокирует, чтобы остановить одну мошенническую транзакцию?

Варианты ответов –

Я немного запутался с этим и угадал 19. Но я прошу кого-то объяснить, если вы знаете ответ. Спасибо заранее.

Ответ от Bard –

Матрица ошибок показывает следующее:

Было 200 фактических мошеннических транзакций, и модель правильно предсказала 200 из них как мошенничество (истинно положительные).
Также было 300 фактических непреставленных транзакций, и модель неправильно предсказала 300 из них как мошенничество (ложно положительные).
Чтобы остановить одну мошенническую транзакцию, модель заблокирует 5 непреставленных транзакций. Это рассчитывается следующим образом:

Количество заблокированных неподысканных / Количество остановленных мошеннических = 300 / 200 = 1.5
Варианты ответов:

19: Это количество заблокированных неподысканных, если модель прогнозирует все транзакции как мошенничество. Это не хороший показатель, так как это заблокирует много легитимных транзакций.
5: Это правильный ответ. Это количество заблокированных неподысканных на одну остановленную мошенническую транзакцию.
3.5: Это среднее значение между 19 и 5.
1.5: Это количество заблокированных неподысканных на одну фактическую мошенническую транзакцию. Это не хороший показатель, так как не учитывает ложные положительные.

Ответ или решение

Чтобы ответить на вопрос о том, сколько некорректных (не мошеннических) транзакций будет заблокировано для остановки одной мошеннической транзакции, рассмотрим данные, представленные в матрице ошибок (confusion matrix).

В общем случае confusion matrix для классификационных моделей содержит следующие данные:

True Positives (TP): количество истинных положительных случаев (мошеннические транзакции, которые были правильно классифицированы как мошеннические).
False Positives (FP): количество ложных положительных случаев (нормальные транзакции, которые были ошибочно классифицированы как мошеннические).
True Negatives (TN): количество истинных отрицательных случаев (нормальные транзакции, которые были правильно классифицированы как нормальные).
False Negatives (FN): количество ложных отрицательных случаев (мошеннические транзакции, которые были ошибочно классифицированы как нормальные).

Предположим, что из вашей описанной матрицы:

TP = 200
FN = 0
FP = 300
TN = 0

Для того чтобы определить, сколько нормальных транзакций будет заблокировано для остановки одной мошеннической, мы используем следующую формулу:

[
\text{Некорректные блокировки на одну мошенническую} = \frac{FP}{TP}
]

Подставив наши значения:

[
\text{Некорректные блокировки на одну мошенническую} = \frac{300}{200} = 1.5
]

Таким образом, для остановки одной мошеннической транзакции блокируется 1.5 нормальных транзакции.

Из вариантов ответа, предложенных в вопросе, правильным ответом будет 1.5. Это число представляет собой соотношение между количеством заблокированных некорректных транзакций и количеством остановленных мошеннических транзакций.

Пояснения к другим вариантам:

19: Это число не имеет смысла в этом контексте, так как оно не учитывает настоящие данные.
5: Это значение также не соответствует полученной формуле.
3.5: Это среднее значение, но оно не является корректным по отношению к вопросу.

Таким образом, верный ответ на ваш вопрос — 1.5.