Метрики точности, полноты и правильности существенно различаются между обучающими/валидационными данными и фактическими предсказаниями.

Question 1

У меня есть две последовательные модели, построенные с использованием Keras, которые обучаются на данных из CSV-файла. Вот как они построены

# Первая модель

model = Sequential()
model.add(Input(shape=X_1.shape))
model.add(Dense(128, activation='relu', kernel_initializer="he_uniform"))
model.add(Dense(64, activation='relu', kernel_initializer="he_uniform"))
model.add(Dropout(0.7))
model.add(Dense(32, activation='relu', kernel_initializer="he_uniform"))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss="binary_crossentropy",
              optimizer=Adam(learning_rate=0.001),
              metrics=[recall, prec, ba])

# Вторая модель

model_2 = Sequential()
model_2.add(Input(shape=X_1.shape))
model_2.add(Dense(64, activation='relu', kernel_initializer="he_uniform"))
model_2.add(Dropout(0.5))
model_2.add(Dense(32, activation='relu', kernel_initializer="he_uniform"))
model_2.add(Dense(1, activation='sigmoid'))
model_2.compile(loss="binary_crossentropy",
              optimizer=Adam(learning_rate=0.001),
              metrics=[recall, prec, ba])

Мой набор данных разделен пополам: один для обучения/валидации и один для тестирования, также у меня около 47 тысяч строк данных в 19 колонках. Большинство из них категориальные, только одна – численная, все категориальные данные закодированы с помощью one hot encoding, а численные нормализованы с использованием MinMaxScaler. Когда я обучаю модель, я использую встроенные метрики Keras для полноты, точности и точности, и получаю хорошие показатели выше 0.7 для этих метрик. Я вручную вычисляю F1 баллы своих результатов.

Затем я тестирую обученную модель на оставшихся данных (второй половине набора данных) и вычисляю метрики, используя Sklearn, так как мне не удалось найти встроенные функции для этого в Keras. Я использую следующий код.

# предсказать классы для тестового набора
yhat_classes = (model.predict(X_2) > 0.5).astype("int32")

# Вычислить F1 балл
accuracy = accuracy_score(y_2, yhat_classes)
precision = precision_score(y_2, yhat_classes)
recall = recall_score(y_2, yhat_classes)
f1 = f1_score(y_2, yhat_classes)

По этим метрикам я получаю значительно более низкие показатели во всех случаях. Опять же, мои значения валидации из метода .fit модели точно соответствуют тому, что мне нужно. Я также использую EarlyStopping для своей модели, наблюдая за val_recall во время обучения.

Почему мои результаты предсказания так отличаются от обучения и как я могу улучшить их? Есть ли разница между тем, как Sklearn и Keras вычисляют точность и полноту?

Question 2

Ваша модель переобучена. Это значит, что вы как бы “запоминаете” данные для обучения, в то время как должны “учиться”. Хорошая модель должна иметь похожие результаты для обучающих и валидационных данных, но это не ваш случай, показатели сильно различаются. Чтобы избежать этого:

Используйте больше данных для обучения. Почему вы используете только 50% для обучения? Я бы рекомендовал использовать почти 90%. В любом случае, вы оставите около 5000 строк для тестирования вашей модели, этого более чем достаточно. С большим объемом данных труднее переобучиться. Более того, вы можете использовать техники увеличения данных, чтобы получить больше данных.
Увеличьте сложность модели. Добавьте больше слоев или сверток.
Вы также можете попробовать использовать дополнительные техники, такие как дропаута или регуляризация.
Уменьшите значение скорости обучения, возможно, вы сможете улучшить свою модель с помощью этого шага.

Если вы используете комбинацию этих пунктов, которые я прокомментировал, вы должны увидеть улучшение ваших валидационных результатов.

Метрики точности, полноты и правильности существенно различаются между обучающими/валидационными данными и фактическими предсказаниями.

Вопрос или проблема

Ответ или решение

Причины различий в метриках

Рекомендации для улучшения модели