Разница между показателями производительности

Question 1

Мне нужна помощь, чтобы понять значение этих различных значений.
В настоящее время я решаю задачи классификации с использованием машинного обучения, и я получил результаты классификации, как показано на изображении ниже.

Чтобы получить результаты, как на изображении, я использую код:

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
print(confusion_matrix(y_test,y_pred))
print(accuracy_score(y_test,y_pred))
print(classification_report(y_test, y_pred))

Затем я также пытаюсь использовать код ниже, чтобы получить полноту, точность и f1-меру

print(precision_score(y_test,y_pred))
print(recall_score(y_test,y_pred))
print(f1_score(y_test,y_pred))

Результаты: 
Точность: 0.19601
Полнота: 0.44360
F1-мера: 0.27188

Затем я также пробую этот код для взвешенных результатов, используя этот код:

print(precision_score(y_test,y_pred, average="weighted"))
print(recall_score(y_test,y_pred, average="weighted"))
print(f1_score(y_test,y_pred, average="weighted"))

Результаты: 
Взвешенная точность: 0.8588
Взвешенная полнота: 0.7684
Взвешенная F1-мера: 0.8048

Проблема сейчас в том, что я уже запутался во всех этих значениях. Что означает значение avg/total на изображении, значения второго кода, который я попытался использовать, и значения взвешенных метрик в моем третьем коде. Какое значение я должен использовать, чтобы понять, хорош ли результат классификатора или нет? Надеюсь, кто-то сможет мне помочь.

Question 2

То, что вы получаете, – это разные метрики по предсказаниям, которые вы сделали с помощью данной модели (пока я не дал вам никакой новой информации).

То, что вы напечатали, – это несколько результатов различных метрик, которые измеряют разные параметры в модели.

Как вы должны знать, иногда дата-сайентист (вы в этом случае) должен знать, как модель справляется с положительными случаями, или как она справляется с отрицательными случаями и так далее.

Первое, что вы напечатали, называется матрицей ошибок, она сопоставляет информацию о положительных/отрицательных случаях в реальном мире с вашей моделью.

В первом квадратике: когда вы сказали положительный, и это положительный в ваших данных. Последний квадратик отрицательный, и вы сказали отрицательный (в зависимости от того, как осуществляется ваш вывод), 2-й и 3-й квадратики – это ложные положительные и ложные отрицательные.

Точность измеряет, насколько хорошо ваша модель определяет положительные случаи, когда ваша модель говорит, что они положительные, то есть: как ваша модель говорит правду о положительных случаях $Precision = \frac{True Positives}{True Positives+False Positives}$

Полнота измеряет, насколько хорошо ваша модель определяет отрицательные случаи, когда ваша модель говорит, что они отрицательные, то есть: как ваша модель говорит правду об отрицательных случаях $Recall = \frac{True Negatives}{True Negatives+False Negatives}$

F1-мера дает вам гармоническое среднее точности и полноты. Оценки, соответствующие каждому классу, скажут вам, насколько точно классификатор классифицирует данные в этом конкретном классе по сравнению со всеми другими классами.

Поддержка – это количество образцов истинного отклика, которые находятся в этом классе.

Вы можете найти документацию по обеим метрикам в документации sklearn.

Разница между показателями производительности

Вопрос или проблема

Ответ или решение

1. Матрица путаницы (Confusion Matrix)

2. Точность (Precision)

3. Полнота (Recall)

4. F1-Score

5. Взвешенные метрики (Weighted Metrics)

Как оценить производительность модели?

Заключение