Вопрос или проблема
У меня есть одно распределение размера 30.
Это результаты (ROC-AUC, например) обучения нейронной сети 30 раз подряд с одинаковыми гиперпараметрами, но поскольку они инициализируются случайным образом, результат всегда немного отличается.
Затем я обучаю ту же сеть с другими гиперпараметрами и хочу сделать это только для меньшего числа запусков. Допустим, для 5 запусков.
Моя нулевая гипотеза заключается в том, что распределение для меньшего числа запусков не меньше, чем распределение для 30 запусков (односторонний тест).
Какой статистический тест на значимость будет лучшим для сравнения этих малых распределений?
PS: В данный момент я использую тест Манна-Уитни. Есть ли что-то лучше?
Чтобы оценить влияние гиперпараметров на результаты нейронной сети, необходимо исключить сопутствующие переменные. Допустим, у вас есть сеть $A_t$ и сеть $B_t$, соответствующие испытанию/выборке $t$. Случайные инициализированные веса $A_t$ должны быть равны $B_t$. Если вы используете стохастический оптимизатор (например, SGD), вам нужно убедиться, что выборка случайных экземпляров одинакова между обучением сети $A_t$ и $B_t$.
После того как вы исключили сопутствующие переменные, у вас фактически есть парные выборки, которые вы можете сравнить с помощью теста Вилкоксона для связанных выборок. Для малых размеров выборок он может быть предпочтительнее теста Стьюдента для парных выборок, потому что 1. вы не можете проверить, что выборки нормально распределены, и 2. тест Вилкоксона эффективно оценивает медиану, а не среднее. Медиана более устойчива к выбросам, которые особенно влиятельны, если у вас всего несколько выборок.
Ответ или решение
Сравнение малых распределений с использованием статистических тестов – это важная задача, особенно в контексте оценки производительности нейронных сетей с различными гиперпараметрами. Давайте рассмотрим наиболее подходящие методы для сравнения ваших распределений ROC-AUC.
Понимание задачи
У вас есть два распределения:
- Распределение 1: 30 результатов ROC-AUC, полученных при повторном обучении нейронной сети с одинаковыми гиперпараметрами.
- Распределение 2: 5 результатов ROC-AUC от обучения с другими гиперпараметрами.
Вашей нулевой гипотезой является то, что распределение с 5 результатами не менее эффективно, чем распределение с 30 результатами.
Сравнение распределений: Статистические тесты
-
Mann-Whitney U тест: Этот тест подходит для сравнения двух независимых выборок и позволяет оценить, есть ли различия между ними. Однако он может быть менее эффективным, если выборки зависимы, что возможно в вашем случае.
-
Парный тест Уилкоксона: Если вы можете гарантировать, что выборки зависимы (что возможно, если зафиксировать случайные инициализации нейронных сетей и оптимизацию), то парный тест Уилкоксона будет более подходящим. Он позволяет сравнивать связанные выборки, что делает его более чувствительным к различиям в средних значениях, особенно при малом количестве данных. Достоинством этого теста является его устойчивость к выбросам, что имеет особое значение при анализе небольших наборов данных.
-
t-тест для парных выборок: Этот тест можно использовать, если вы предполагаете, что распределения нормальны. Однако, с учетом малых объемов выборки (5 результатов), вы не можете с уверенностью предполагать нормальное распределение. Поэтому данный тест может не подойти.
Рекомендации
Если ваши данные позволяют считать выборки зависимыми (например, с одинаковой инициализацией весов или статической выборкой обучающего набора), рекомендуется использовать парный тест Уилкоксона. Это обеспечит более точное и надежное сравнение в ваших условиях.
В случае, если ваши выборки независимы, и вы здесь предполагаете, что результаты тестов показывают различия, то большими альтернативами могут быть Mann-Whitney U тест или дополнительные методы, как, например, пермутационный тест.
Заключение
Таким образом, выбор теста зависит от структуры ваших данных и условий, в которых вы проводите эксперимент. Парный тест Уилкоксона должен быть предпочтительным, если можно считать, что результаты связаны между собой. В противном случае, Mann-Whitney U тест остаётся приемлемым вариантом. Убедитесь, что вы соблюдаете принципы статистических тестов и интерпретируете результаты в контексте вашей гипотезы, чтобы достичь максимальной достоверности выводов.
Постарайтесь также зафиксировать все условия эксперимента, чтобы в дальнейшем можно было легко воспроизвести результаты и проводить дополнительные сравнения.