Вопрос или проблема
Я занимаюсь многоклассовой классификацией и сравниваю влияние двух техник улучшения изображений (IET). IET 1 работает лучше, чем IET 2 при случайном начальном значении x (для разделения на тренировочный, тестовый и валидационный наборы). IET 2 работает лучше, чем IET 1 при случайном начальном значении y (для разделения на тренировочный, тестовый и валидационный наборы).
Это нормально или я что-то делаю неправильно?
Да, это может зависеть от этого, потому что это изменяет распределение данных, когда сеть обучается.
Вы не должны рассматривать случайное начальное значение как гиперпараметр. Держите одно и то же случайное начальное значение и проводите сравнение. Сделайте это как минимум для 5 или 10 случайных начальных значений. У вас обязательно будет победитель. Если не получится, продолжайте до тех пор, пока не получите победителя, но не более 10. Это даст вам достаточные доказательства эффективности метода. В противном случае, поскольку один метод хорош при одном случайном начальном значении, а другой при другом, просто выберите одно из этих случайных начальных значений, выберите метод, который показывает наилучший результат, и продолжайте свою работу.
Ответ или решение
Да, производительность сверточной нейронной сети (CNN) действительно может зависеть от случайного начального значения (random seed) при разделении данных на обучающую, валидационную и тестовую выборки. Это объясняется тем, что случайное начальное значение влияет на распределение данных, с которым сеть будет работать в процессе обучения.
Влияние случайного начального значения
-
Разделение данных: При изменении случайного начального значения изменяется выборка изображений, используемых для обучения и тестирования. Это может привести к различиям в том, как модели обучаются на разных подмножествах данных, особенно если набор данных не является многимобразным или сбалансированным. Если одно из разделений данных случайно дает модели более «простой» набор данных для обучения, это, естественно, приведет к лучшим результатам.
-
Дисперсия результатов: Модели машинного обучения, включая CNN, могут показывать высокую дисперсию результатов в зависимости от случайных факторов. Например, выбор разных изображений для обучения может приводить к тому, что одна модель учится лучше, чем другая, из-за более удачного выбора образцов.
Рекомендации по оценке
Для того чтобы получить более объективное и надежное сравнение методов улучшения изображений (IET), рекомендуется следовать нескольким шагам:
-
Стабильный random seed: Используйте одно и то же случайное начальное значение для каждого метода и выполняйте обучение и тестирование. Это обеспечит единообразие в распределении данных для обоих методов.
-
Множественные запуски: Запустите эксперимент с несколькими различными случайными начальными значениями (рекомендуется от 5 до 10). Это позволит вам получить средние результаты и снизить влияние случайных факторов на производительность модели. Выберите метод, который стабильно показывает лучшие результаты по большинству начальных значений.
-
Статистическая значимость: Если один метод показывает лучшее качество при нескольких случайных значениях, это может служить более надежным свидетельством его эффективности. Вы также можете использовать статистические методы, чтобы определить, значимы ли различия в производительности между методами.
Заключение
Таким образом, ваше наблюдение, что IET 1 показывает лучшие результаты при одном случайном начальном значении, в то время как IET 2 — при другом, совершенно нормально. Это следствие неопределенности, связанной с выбором данных. Для справедливого сравнения методов улучшения изображений стоит придерживаться предложенных рекомендаций, чтобы достичь более объективных и воспроизводимых результатов. Выбор метода только на основе единичных запусков без учета множественных тестов может привести к ошибочным выводам.