Какой лучший способ сравнить эти маленькие распределения?

Содержание

Вопрос или проблема
Ответ или решение
Понимание задачи
Сравнение распределений: Статистические тесты
Рекомендации
Заключение

Вопрос или проблема

У меня есть одно распределение размера 30.

Это результаты (ROC-AUC, например) обучения нейронной сети 30 раз подряд с одинаковыми гиперпараметрами, но поскольку они инициализируются случайным образом, результат всегда немного отличается.

Затем я обучаю ту же сеть с другими гиперпараметрами и хочу сделать это только для меньшего числа запусков. Допустим, для 5 запусков.

Моя нулевая гипотеза заключается в том, что распределение для меньшего числа запусков не меньше, чем распределение для 30 запусков (односторонний тест).

Какой статистический тест на значимость будет лучшим для сравнения этих малых распределений?

PS: В данный момент я использую тест Манна-Уитни. Есть ли что-то лучше?

Чтобы оценить влияние гиперпараметров на результаты нейронной сети, необходимо исключить сопутствующие переменные. Допустим, у вас есть сеть $A_t$ и сеть $B_t$, соответствующие испытанию/выборке $t$. Случайные инициализированные веса $A_t$ должны быть равны $B_t$. Если вы используете стохастический оптимизатор (например, SGD), вам нужно убедиться, что выборка случайных экземпляров одинакова между обучением сети $A_t$ и $B_t$.

После того как вы исключили сопутствующие переменные, у вас фактически есть парные выборки, которые вы можете сравнить с помощью теста Вилкоксона для связанных выборок. Для малых размеров выборок он может быть предпочтительнее теста Стьюдента для парных выборок, потому что 1. вы не можете проверить, что выборки нормально распределены, и 2. тест Вилкоксона эффективно оценивает медиану, а не среднее. Медиана более устойчива к выбросам, которые особенно влиятельны, если у вас всего несколько выборок.

Ответ или решение

Сравнение малых распределений с использованием статистических тестов – это важная задача, особенно в контексте оценки производительности нейронных сетей с различными гиперпараметрами. Давайте рассмотрим наиболее подходящие методы для сравнения ваших распределений ROC-AUC.

Понимание задачи

У вас есть два распределения:

Распределение 1: 30 результатов ROC-AUC, полученных при повторном обучении нейронной сети с одинаковыми гиперпараметрами.
Распределение 2: 5 результатов ROC-AUC от обучения с другими гиперпараметрами.

Вашей нулевой гипотезой является то, что распределение с 5 результатами не менее эффективно, чем распределение с 30 результатами.

Сравнение распределений: Статистические тесты

Mann-Whitney U тест: Этот тест подходит для сравнения двух независимых выборок и позволяет оценить, есть ли различия между ними. Однако он может быть менее эффективным, если выборки зависимы, что возможно в вашем случае.
Парный тест Уилкоксона: Если вы можете гарантировать, что выборки зависимы (что возможно, если зафиксировать случайные инициализации нейронных сетей и оптимизацию), то парный тест Уилкоксона будет более подходящим. Он позволяет сравнивать связанные выборки, что делает его более чувствительным к различиям в средних значениях, особенно при малом количестве данных. Достоинством этого теста является его устойчивость к выбросам, что имеет особое значение при анализе небольших наборов данных.
t-тест для парных выборок: Этот тест можно использовать, если вы предполагаете, что распределения нормальны. Однако, с учетом малых объемов выборки (5 результатов), вы не можете с уверенностью предполагать нормальное распределение. Поэтому данный тест может не подойти.

Заключение

Таким образом, выбор теста зависит от структуры ваших данных и условий, в которых вы проводите эксперимент. Парный тест Уилкоксона должен быть предпочтительным, если можно считать, что результаты связаны между собой. В противном случае, Mann-Whitney U тест остаётся приемлемым вариантом. Убедитесь, что вы соблюдаете принципы статистических тестов и интерпретируете результаты в контексте вашей гипотезы, чтобы достичь максимальной достоверности выводов.

Постарайтесь также зафиксировать все условия эксперимента, чтобы в дальнейшем можно было легко воспроизвести результаты и проводить дополнительные сравнения.