Значение P и степень свободы в T-тесте

Вопрос или проблема

Я прочитал о T-тесте и о том, как мы можем использовать его для сравнения двух моделей (https://towardsdatascience.com/paired-t-test-to-evaluate-machine-learning-classifiers-1f395a6c93fa)

Есть некоторые моменты, которые я не уверен, что правильно понимаю:

  1. Я видел, что обычно выбираем P (p-value) равным 0.05 или 0.01

    1.1 Что это значит?

    1.2 Означает ли это, что если рассчитанное t находится в пределах T-таблицы, мы принимаем нулевую гипотезу, т.е. в 95% (или 99%) случаев тестов, разницы между двумя моделями нет?

  2. Согласно https://medium.com/analytics-vidhya/using-the-corrected-paired-students-t-test-for-comparing-the-performance-of-machine-learning-dc6529eaa97f

    мы не можем использовать K-FOLD и T-TEST, потому что выборки не независимы (тренировочные данные используются в одном фолде, а в другом они становятся тестовыми), я прав?

    Таким образом, чтобы использовать T-TEST, мы должны сгенерировать по крайней мере 30 различных наборов данных для теста (без зависимости)?

  3. Степень свободы

    3.1 Если я правильно понимаю, чем больше тестов мы проводим (большее N -> большая степень свободы) -> тем точнее результаты T-теста? Я прав?

    3.2 Нужно ли нам проводить по крайней мере 30 тестов, чтобы использовать T-TEST?

(p-value) равное 0.05 или 0.01 означает вероятность отклонения нулевой гипотезы из-за флуктуаций выборки. Как правило, мы вычисляем p-value из выборочных данных и сравниваем его со значением статистической таблицы на заданном уровне, например, p = 0.05. Многие авторы используют термин – альфа – чтобы отразить вероятность отклонения нулевой гипотезы из-за флуктуаций выборки.

Ответ или решение

Вопрос о значении p-значения и степени свободы в T-тесте имеет решающее значение для правильного понимания результатов статистических тестов, особенно в контексте сравнения эффективности моделей машинного обучения. Давайте рассмотрим данные элементы более подробно.

Значение p-значения в T-тесте

  1. Что такое p-значение?

    p-значение — это вероятность получения результатов, по крайней мере таких же экстремальных, как наблюдаемые данные, при условии, что нулевая гипотеза верна. Это мера статистической значимости результатов теста. Обычно выбираемые уровни значимости составляют 0.05 или 0.01. Если p-значение меньше выбранного уровня (например, 0.05), это указывает на то, что мы отвергаем нулевую гипотезу, предполагая, что результаты статистически значимы.

  2. Связь с нулевой гипотезой

    При p-значении 0.05 мы говорим, что есть 5% вероятность отвергнуть нулевую гипотезу из-за случайных колебаний в данных. То есть, есть 95% уверенность, что разница между моделями не случайна. Если рассчитанное значение t находится в критическом диапазоне распределения Т-таблицы при уровне 0.05, мы принимаем нулевую гипотезу и утверждаем, что различий между моделями статистически нет.

Особенности использования T-теста с учётом степеней свободы

  1. Описание степени свободы

    Степень свободы (df) обычно определяется как количество наблюдений минус количество оцениваемых параметров. В контексте независимых выборок df = N1 + N2 – 2, где N1 и N2 — размерности выборок. Для парных тестов df = N-1, где N — количество пар.

  2. Влияние размеров выборки

    Чем больше величина N, тем больше степень свободы, что ведёт к более узкому распределению критического значения. Это позволяет рассчитывать на более точные результаты T-теста, так как распределение становится более симметричным, приближаясь к нормальному распределению.

  3. Использование 30 выборок

    Общее эмпирическое правило заключается в том, что большая выборка (обычно 30 и более) считается приближённой к нормальному распределению. Это упрощает применение T-теста. Однако, точное требование может варьироваться в зависимости от контекста и метода анализа.

Взаимосвязь с применением в машинном обучении

  1. Проблема независимости данных

    При использовании перекрёстной проверки (k-fold cross-validation) данные, попадающие в тренировочные и тестовые подмножества, могут быть не полностью независимы друг от друга, что может нарушать предпосылки использования классического T-теста. В таких ситуациях рекомендуется или увеличивать количество независимых наборов данных, или использовать специализированные методы тестирования, которые учитывают зависимости внутри данных.

Подытоживая, понимание p-значения и степени свободы критически важно для надёжного применения T-теста, особенно в контексте оценки моделей машинного обучения. При этом внимание к независимости данных и размерам выборки остаётся ключевым для получения значимых результатов.

Оцените материал
Добавить комментарий

Капча загружается...