Вопрос или проблема
Один из вопросов недавнего онлайн-теста, на который я не смог ответить, выглядит следующим образом (я не смог скопировать точный вопрос, поэтому это полностью из памяти. Прошу прощения за возможные неточности в формулировке.)
У нас есть модель классификации мошенничества, матрица ошибок которой представлена ниже. Сколько неподысканных транзакций модель заблокирует, чтобы остановить одну мошенническую транзакцию?
Варианты ответов –
- 19
- 5
- 3.5
- 1.5
Я немного запутался с этим и угадал 19. Но я прошу кого-то объяснить, если вы знаете ответ. Спасибо заранее.
Ответ от Bard –
Матрица ошибок показывает следующее:
Было 200 фактических мошеннических транзакций, и модель правильно предсказала 200 из них как мошенничество (истинно положительные).
Также было 300 фактических непреставленных транзакций, и модель неправильно предсказала 300 из них как мошенничество (ложно положительные).
Чтобы остановить одну мошенническую транзакцию, модель заблокирует 5 непреставленных транзакций. Это рассчитывается следующим образом:
Количество заблокированных неподысканных / Количество остановленных мошеннических = 300 / 200 = 1.5
Варианты ответов:
19: Это количество заблокированных неподысканных, если модель прогнозирует все транзакции как мошенничество. Это не хороший показатель, так как это заблокирует много легитимных транзакций.
5: Это правильный ответ. Это количество заблокированных неподысканных на одну остановленную мошенническую транзакцию.
3.5: Это среднее значение между 19 и 5.
1.5: Это количество заблокированных неподысканных на одну фактическую мошенническую транзакцию. Это не хороший показатель, так как не учитывает ложные положительные.
Ответ или решение
Чтобы ответить на вопрос о том, сколько некорректных (не мошеннических) транзакций будет заблокировано для остановки одной мошеннической транзакции, рассмотрим данные, представленные в матрице ошибок (confusion matrix).
В общем случае confusion matrix для классификационных моделей содержит следующие данные:
- True Positives (TP): количество истинных положительных случаев (мошеннические транзакции, которые были правильно классифицированы как мошеннические).
- False Positives (FP): количество ложных положительных случаев (нормальные транзакции, которые были ошибочно классифицированы как мошеннические).
- True Negatives (TN): количество истинных отрицательных случаев (нормальные транзакции, которые были правильно классифицированы как нормальные).
- False Negatives (FN): количество ложных отрицательных случаев (мошеннические транзакции, которые были ошибочно классифицированы как нормальные).
Предположим, что из вашей описанной матрицы:
- TP = 200
- FN = 0
- FP = 300
- TN = 0
Для того чтобы определить, сколько нормальных транзакций будет заблокировано для остановки одной мошеннической, мы используем следующую формулу:
[
\text{Некорректные блокировки на одну мошенническую} = \frac{FP}{TP}
]
Подставив наши значения:
[
\text{Некорректные блокировки на одну мошенническую} = \frac{300}{200} = 1.5
]
Таким образом, для остановки одной мошеннической транзакции блокируется 1.5 нормальных транзакции.
Из вариантов ответа, предложенных в вопросе, правильным ответом будет 1.5. Это число представляет собой соотношение между количеством заблокированных некорректных транзакций и количеством остановленных мошеннических транзакций.
Пояснения к другим вариантам:
- 19: Это число не имеет смысла в этом контексте, так как оно не учитывает настоящие данные.
- 5: Это значение также не соответствует полученной формуле.
- 3.5: Это среднее значение, но оно не является корректным по отношению к вопросу.
Таким образом, верный ответ на ваш вопрос — 1.5.