A/B тестирование с негауссовскими распределениями

Содержание

Вопрос или проблема
Ответ или решение
Теория
Пример
Применение
Перестановочные тесты
Интерпретация результатов

Вопрос или проблема

У меня есть два набора образцов (A, B) с относительно большим количеством (~10,000), и я хочу выяснить, повлиял ли фактор на образец B. Естественно, я должен использовать A/B тестирование. Проблема в том, что распределения не являются нормальными, и меня интересует максимальное изменение, а не средние значения! Поэтому, если все, что вы знаете, это как центральная предельная теорема делает все распределения гауссовыми, это хороший момент, чтобы остановиться и перейти к следующему вопросу. Данные — это расстояния, так что минимальное значение — 0, но максимума нет и нет гарантии, каким будет распределение. Например, гистограммы выглядят так:

Моя интуиция подсказывает мне, что максимум оранжевого образца просто случайно выше, чем у синего, но интуиция обычно ошибается. Поэтому я хочу иметь какой-то метод тестирования. Я был бы признателен за любые предложения.

P.S.: Тест Уэлча показывает, что с уверенностью в 100.000% эти два распределения различны, но так ли это?

Тест Уэлча предполагает нормальное распределение. Я предполагаю, что ваш размер выборки достаточно велик, чтобы увидеть, что эти два распределения различны, основываясь на различиях в среднем, дисперсии и диапазоне.

Да, похоже на то. Возможно, ваши данные зависят от первых случайных переменных, которые, в свою очередь, влияют на общее распределение.

Один из вариантов — это пермутационный тест. Пермутация не делает никаких предположений о распределении данных и позволяет тестировать максимальное изменение.

Для пермутационного теста вы случайно назначаете точки данных меткам и затем вычисляете максимальное изменение при нулевой гипотезе. Повторяйте до тех пор, пока не будете уверены, что наблюдаемые различия вероятны или маловероятны, чтобы произойти случайно.

Ответ или решение

Теория

A/B тестирование — это метод статистического анализа, который используется для сравнения двух наборов данных, называемых контролем (A) и экспериментом (B), чтобы определить, является ли изменение значительным. В случае нормальных распределений широко используются такие методы, как t-тесты. Тем не менее, когда распределения не являются нормальными или когда нас интересует не среднее значение, а максимум, традиционные методы могут не подойти. Особенно в случае, когда данные имеют ограничения, такие как минимальное значение 0 и отсутствие максимального, характерное для распределений расстояний, используемых в вашем анализе.

Классический t-тест, как, например, тест Уэлча, предполагает нормальность данных. Ошибки могут возникнуть, если данные не соответствуют этим предположениям, особенно если аномалии или выбросы сильно влияют на результат.

Пример

В вашем случае у вас есть большой объем данных (~10,000 записей для каждого сета), что само по себе устраняет некоторые проблемы неточности статистических оценок. Однако, так как вас интересует максимальное изменение, а не просто среднее, данный подход требует адаптации. Рассмотрение графиков распределений и интуитивное ощущение, что максимальные значения могут быть случайными, лишь подчеркивает необходимость поиска более надежного метода анализа. В данном случае, картинка демонстрирует асимметричные, возможно экспоненциальные распределения, которые свидетельствуют о неэффективности применения гауссовых методов.

Применение

Поскольку самостоятельный метод A/B тестирования, сосредоточенный на средних значениях, может быть несостоятельным, необходимо использовать подходы, не зависящие от предположений о форме распределения, такие как перестановочные тесты.

Перестановочные тесты

Перестановочные тесты — это непараметрический метод, который помогает определить, является ли наблюдаемая разница между распределениями значимой, без предположения о форме их распределения. Чтобы выполнить перестановочный тест, следуйте этим основным шагам:

Генерация Перестановок: Создайте множество реплик ваших данных, случайно смешивая (переставляя) значения между наборами А и В.
Рассчет Метрики: Для каждого сгенерированного набора данных вычислите интересующую вас статистику — в данном случае это максимальное значение.
Анализ Разницы: Сравните полученные максимальные значения в сгенерированных данных с реальными данными. Это позволяет оценить вероятность получения наблюдаемой разницы просто за счет случайности.
Определение Значимости: Исходя из распределения перестановок, оцените, насколько часто вы получаете наблюдаемое (или большее) различие. Если это встречается редко, можно заключить, что фактор в действительности воздействует на распределение B.

Перестановочные тесты не зависят от предположений о нормальности и подойдут для выявления значительных максимальных изменений в ваших данных.

Интерпретация результатов

После проведения перестановочных тестов и анализа вероятности вы сможете сделать более обоснованный вывод о том, существует ли статистически значимая разница. Возможен сценарий, когда разница действительно обусловлена случайностью, но с учетом выбранного доверительного интервала (например, 95%) вы сможете фактически оценить, является ли ваше интуитивное ощущение ошибочным или обоснованным фактами.

Таким образом, корректное применение перестановочных тестов для анализа максимальных изменений в негауссовских распределениях позволит получить более надежные и обоснованные выводы, нежели традиционные методы. Учитывая ваши данные и их ограничения, данный подход будет оптимальным для получения качественных инсайтов и результатов.