Не могу понять подход к оценке, используемый в этой статье.

Вопрос или проблема

В этой статье предлагаются две модели глубокого обучения: Hybrid-AttUnet++ и EH-AttUnet++. Первая модель, Hybrid-AttUnet++, представляет собой модифицированную модель U-net, а вторая модель — это ансамблевый подход из пяти различных моделей Hybrid-AttUnet++, созданных, как описано в статье (страница 7):

Чтобы улучшить производительность и устойчивость нашей системы, мы предлагаем метод ансамбля, состоящий из пяти моделей Hybrid-AttUnet++, как показано на Рис. 9. Чтобы обеспечить разнообразие моделей, критически важное для производительности ансамбля, мы использовали технику кросс-валидации с использованием k блоков, где k, количество блоков, установлено равным 5. Для создания разделов мы сначала случайным образом разделили набор данных на пять блоков. Один из этих блоков использовался для валидации, а оставшиеся четыре — для обучения. Затем мы создали пять разбиений с различными обучающими/валидационными поднаборами. Для каждого из этих пяти разбиений, Hybrid-AttUnet++ обучалась с нуля. После обучения модели использовались для индивидуального прогнозирования. Затем использовался ансамблевый подход посредством усреднения предсказаний пяти обученных моделей.

Таким образом, они использовали кросс-валидацию с 5 блоками, и из каждого из 5 разбиений они создали одну базовую модель Hybrid-AttUnet++. Что я не понимаю, так это процесс оценки. На странице 8:

Чтобы оценить наш подход, мы выполняем кросс-валидацию с 5 блоками, используя 80% общего набора данных в качестве обучающих данных, а остальные в качестве тестовых данных. Затем рассчитываются и обобщаются средние результаты кросс-валидации в Таблице 3.

Это означает, что кросс-валидация с 5 блоками была выполнена на 80% набора данных, а оставшиеся 20% были использованы в качестве тестового набора. Таким образом, я ожидаю найти таблицу, которая представляет результаты, достигнутые на тестовом наборе в 20%, однако в статье есть три таблицы для представления результатов:

Таблица 3 представляет достигнутые результаты по кросс-валидации с 5 блоками для обеих моделей: Hybrid-AttUnet++ и ансамблевого подхода EH-AttUnet++, что странно для меня, потому что модель EH-AttUnet++ уже была разработана с использованием кросс-валидации с 5 блоками, так как же они были оценены снова на 5-кратной кросс-валидации, неужели авторы просто использовали 5-кратную кросс-валидацию дважды, одну для разработки базовых моделей и другую для повторного обучения ансамблевого подхода на сплите (я так не думаю, потому что это не имеет смысла заново обучать модели как целое (ансамблевый подход))?

Таблица 4 снова касается кросс-валидации с 5 блоками.

Таблица 5 иллюстрирует метрику производительности, достигнутую для каждого блока только для EH-AttUnet++, но не для Hybrid-AttUnet++.

Итак, чтобы подытожить, мои вопросы следующие:
1- Их метод оценки имеет тестовый набор в 20%, где именно результаты, достигнутые на этом тестовом наборе? Или я что-то упускаю?
2- Ансамблевый подход EH-AttUnet++ был разработан с использованием кросс-валидации с 5 блоками, где для каждого разбиения создавалась базовая модель Hybrid-AttUnet++. В таблицах 3-5 производительность этой ансамблевой модели оценивалась с использованием кросс-валидации с 5 блоками, что не имеет смысла для меня, так как же они это сделали? Использовали ли они снова кросс-валидацию с 5 блоками, но EH-AttUnet++ в целом использовалась на каждом сплите (так что они снова переобучили 5 моделей на сплите)? Я думаю, что лучший подход был бы использовать тестовый набор в 20% для ее оценки?

Ответ или решение

Вопрос о подходе к оценке, используемом в статье, действительно сложный, и для полного понимания необходимо разобраться в предоставленных данных и их интерпретации. Давайте разберемся в теории, примерах и их применении.

Теория

Основными моделями, рассматриваемыми в статье, являются Hybrid-AttUnet++ и EH-AttUnet++. Как описано, Hybrid-AttUnet++ — это модифицированная версия модели U-net, а EH-AttUnet++ — это ансамблевая модель, состоящая из пяти Hybrid-AttUnet++ моделей. Для обеспечения разнообразия модели, критически важного для производительности ансамбля, была использована методика k-кратной перекрестной валидации (k = 5). В итоге, получаем пять различных моделей Hybrid-AttUnet++, которые затем объединяются в ансамбль.

Пример

Обучение и валидация базовых моделей Hybrid-AttUnet++:
- Данные разделяются на пять равных частей. На каждой итерации четыре части используются в качестве обучающего набора, а одна — в качестве валидационного.
- Для каждой из пяти комбинаций обучающего/валидационного набора обучают одну модель Hybrid-AttUnet++.
Создание ансамбля EH-AttUnet++:
- После обучения базовой модели для каждой из пяти частей, каждое из этих обученных единичек моделей используется для создания предсказаний.
- Полученные предсказания затем усредняются, создавая тем самым финальную выходную модель EH-AttUnet++.

Применение к данным и вопросам

20% тестовый набор и где результаты:
- В описанной системе 5-кратной перекрестной валидации, на 80% данных на обучении и 20% для тестирования, возможно, было проведено окончательное тестирование, но его результаты специально не акцентированы в таблицах.
- Вероятно, для более обобщенной оценки результатов авторы сосредоточились на показателях, усреднённых по всем folds, и не уделили достаточного внимания отдельно взятой тестовой выборке.
Оценка ансамбля EH-AttUnet++ с помощью 5-кратной перекрестной валидации:
- Существует вероятность недопонимания в том, что 5-кратная перекрестная валидация использовалась не только для создания модели, но и для её проверки. Однако, вероятно, авторы не тренировали снова пять моделей в каждом сплите, а просто использовали результаты каждого из пяти ансамблей для каждой из данных частей, усредняя их для окончательной оценки.
- Посему, таблицы могут демонстрировать производительность каждого из ансамблевых представлений, как полученное среднее из кросс-валидации, что объясняет наличие повторной оценки.

Процесс применения такого подхода в исследованиях данных несколько отличается от более традиционной схемы, где модели однажды обучаются на обучающем наборе и сразу тестируются на отдельной тестовой выборке. Использование перекрестной валидации на этапах как разработки моделей, так и оценки позволяет получить более устойчивую картину качества модели, что, возможно, и преследовали авторы, хотя и не до конца разъяснили этот момент в своей статье. Это может казаться избыточным, однако в условиях сложных моделей такие методики могут быть полезными для продемонстрировать устойчивость модели к колебаниям данных.

На основании описания методологий и статистических процедур, предложенных в статье, следует, что возможно, произошла путаница или недостаточная трактовка, но передергивание всех шагов показывает их рвение к точности и конфиденциальности при обработке результатов, что, вне всяких сомнений, заслуживает внимания в научных кругах.