Каково правильное значение и интерпретация p-значений?

Вопрос или проблема

Я публикую этот вопрос, и ответ, чтобы помочь развеять некоторые недоразумения о том, что такое p-значения. Как менеджер по найму, проводящий собеседования с Data Scientist-ами среднего и старшего уровня, я неоднократно сталкивался с этими недоразумениями. Также я заметил несколько постов здесь на DS.SE, где автор неверно интерпретировал или не понял p-значения, поэтому, вместо того чтобы указывать на это каждый раз в деталях, я подумал, что лучше создать вопрос и ответ по этой теме. Я надеюсь создать «канонический» вопрос и ответ, на который сообщество сможет ссылаться, если/когда это будет уместно. Буду рад любым комментариям, если я допустил ошибки.

Все, что следует, во многом основывается на статье Халера и Крауса (2002), которые изучали заблуждения о тестировании значимости нулевой гипотезы (NHST) среди трех групп: студентов-психологов, научных психологов и преподавателей методологии, обучающих статистике студентов-психологов в немецких университетах. Они использовали опрос, состоящий из шести утверждений о интерпретации p-значения, полученного с помощью t-теста. Участников попросили классифицировать каждое утверждение как “истинное” или “ложное”.


Вопросник:

Предположим, у вас есть лечение, которое, по вашему мнению, может повлиять на выполнение задачи. Вы сравниваете средние значения своих контрольной и экспериментальной групп (например, 20 субъектов в каждой выборке). Затем вы используете независимый t-тест для средних, и ваш результат (t = 2.7, d.f. = 18, p = 0.01). Пожалуйста, выберите “истинно” или “ложно”, и обратите внимание, что несколько или ни одно из утверждений может быть правильным.

  1. Вы опровергли нулевую гипотезу (то есть нет разницы между средними в популяциях).
  2. Вы нашли вероятность того, что нолевая гипотеза верна.
  3. Вы доказали свою экспериментальную гипотезу (то есть есть разница между средними в популяциях).
  4. Вы можете вывести вероятность правоты экспериментальной гипотезы.
  5. Вы знаете, что если решите отвергнуть нулевую гипотезу, то вероятность того, что вы ошибаетесь в своем решении.
  6. У вас есть надежная экспериментальная находка в том смысле, что если гипотетически эксперимент повторить множество раз, вы получите значимый результат в 99% случаев.

Я бы хотел призвать всех, кто это читает, глубоко подумать над этими вопросами и придумать свои ответы, прежде чем ознакомиться с моим ответом, который следует далее. Я также призываю людей прочитать статью Халера и Крауса (2002), на которой это основано (ссылка на pdf в разделе «Ссылки»).

Ссылки

  • Халер, Х., & Краус, С. (2002). Неверные интерпретации значимости: проблема, с которой сталкиваются студенты и их преподаватели. Методы психологических исследований, 7(1), 1–20. PDF

Понимание P-значений и устранение недоразумений

Определение p-значения

P-значение определяется как:

$$
\mathcal{P}(|\mathcal{T}| \geq |t| \mid \mathcal{H_0}),
$$

где:

  • $\mathcal{T}$ — это тестовая статистика, случайная величина, следующее известному закону распределения вероятности при нулевой гипотезе ($\mathcal{H_0}$). Для независимого t-теста для средних $\mathcal{T}$ следует t-распределению при $\mathcal{H_0}$.
  • $t$ — это наблюдаемое значение тестовой статистики, рассчитанное на основе выборочных данных.
  • $\mathcal{H_0}$ — это нулевая гипотеза.

В конкретном сценарии, описанном в вопросе, исследовательский вопрос не определяет направленную гипотезу (например, увеличивается ли или уменьшается производительность из-за лечения). Поэтому проводится двусторонний тест. Это означает, что p-значение учитывает обе хвосты распределения и представляет вероятность наблюдения тестовой статистики, как минимум такой же экстремальной, как наблюдаемое значение ($t$), в любом направлении, при $\mathcal{H_0}$.

Если бы исследовательский вопрос указывал на направленную гипотезу (например, улучшает ли лечение производительность), можно было бы провести односторонний тест. Тем не менее, для данной схемы исследования двусторонний тест является уместным.


Рассмотрение утверждений вопросника

  1. Ложно. P-значение не может “доказать” или “опровергнуть” $\mathcal{H_0}$. Оно количественно оценивает доказательства против $\mathcal{H_0}$, но по своей сути является вероятностным.

  2. Ложно. P-значение отражает $\mathcal{P}(|\mathcal{T}| \geq |t| \mid \mathcal{H_0})$, а не $\mathcal{P}(\mathcal{H_0} \mid \mathcal{D})$. Для вычисления последнего требуются байесовские методы.

  3. Ложно. P-значение не “доказательство” альтернативной гипотезы ($\mathcal{H_1}$). Оно лишь указывает на наличие доказательств против $\mathcal{H_0}$.

  4. Ложно. Частотные методы не могут вычислить $\mathcal{P}(\mathcal{H_1} \mid \mathcal{D})$ без учета приорных значений.

  5. Ложно. P-значение не измеряет напрямую уровень ошибки первого рода ($\alpha$) или вероятность принятия неверного решения при отклонении $\mathcal{H_0}$.

  6. Ложно. P-значение 0.01 не подразумевает, что 99% повторений приведут к значимому результату. Воспроизводимость зависит от таких факторов, как размер эффекта и его изменчивость.


Результаты Халера и Крауса (2002)

Как уже упоминалось, Халер и Краус (2002) опросили студентов-психологов, практикующих психологов и преподавателей статистики, используя эти шесть утверждений. Результаты выявили широко распространенные заблуждения среди всех групп, что показано процентами участников, поддержавших хотя бы одно ложное утверждение:

  • Студенты-психологи (1-й курс): 100%
  • Практикующие психологи: 98%
  • Преподаватели статистики: 80%

Подробный анализ конкретных заблуждений показал:

  1. “Вы опровергли нулевую гипотезу”:
    • Поддержано 62% студентов, 47% психологов и 42% преподавателей.
  2. “Вы нашли вероятность того, что нулевая гипотеза верна”:
    • Поддержано 62% студентов, 53% психологов и 47% преподавателей.
  3. “Вы доказали свою экспериментальную гипотезу”:
    • Поддержано 84% студентов, 77% психологов и 67% преподавателей.
  4. “Вы можете вывести вероятность того, что экспериментальная гипотеза верна”:
    • Поддержано 68% студентов, 53% психологов и 50% преподавателей.
  5. “Вы знаете вероятность принятия неверного решения, отклоняя нулевую гипотезу”:
    • Поддержано 53% студентов, 47% психологов и 42% преподавателей.
  6. “У вас есть надежная экспериментальная находка в том смысле, что 99% повторений приведут к значимым результатам”:
    • Поддержано 74% студентов, 65% психологов и 58% преподавателей.

Эти данные свидетельствуют о том, что даже опытные профессионалы, включая тех, кто обучает статистике, часто неправильно интерпретируют p-значения и NHST. Результаты подчеркивают необходимость целенаправленных образовательных мероприятий для исправления устойчивых мифов и разъяснения правильной интерпретации p-значений.

Корни недоразумений

  1. Ошибки в учебниках: Многие учебники пропагандируют неверные интерпретации p-значений, например, приравнивая их к $\mathcal{P}(\mathcal{H_0} \mid \mathcal{D})$. Например, книга “Введение в статистику для психологии и образования” Нуналли (1975) удивительным образом содержит все эти ошибки:
    • “Невероятность наблюдаемых результатов, обусловленных ошибкой.”
    • “Вероятность того, что наблюдаемая разница реальна.”
    • “Если вероятность низка, то нулевая гипотеза маловероятна.”
    • “Статистическая уверенность… с шансами 95 из 100, что наблюдаемая разница сохранится в дальнейших исследованиях.”
    • “Степень, в которой экспериментальные результаты воспринимаются ‘серьезно’.”
    • “Опасность принятия статистического результата как реального, когда он на самом деле обусловлен только ошибкой.”
    • “Степень уверенности, которую можно отдать реальности находки.”
    • “Исследователь может быть уверен в 95%, что среднее по выборке действительно отличается от среднего по популяции.”
  2. Упрощенное обучение: Чрезмерное внимание к расчетам приводит к плохому концептуальному пониманию.
  3. Языковая неоднозначность: Фразы, такие как “отклонить $\mathcal{H_0}$“, могут подразумевать уверенность, где ее нет.
  4. Гибридизация парадигм: Смешение методов Фишера и Неймана-Пирсона создает путаницу (Гигеренцер, 1993).

Расширение байесовской перспективы

Согласно теореме Байеса, апостериорная вероятность $\mathcal{H_0}$ равна:

$$
\mathcal{P}(\mathcal{H_0} \mid \mathcal{D}) = \frac{\mathcal{P}(\mathcal{D} \mid \mathcal{H_0}) \mathcal{P}(\mathcal{H_0})}{\mathcal{P}(\mathcal{D})},
$$

где:

  • $\mathcal{P}(\mathcal{H_0})$ — это априорная вероятность $\mathcal{H_0}$,
  • $\mathcal{P}(\mathcal{D} \mid \mathcal{H_0})$ — это правдоподобие данных при $\mathcal{H_0}$,
  • $\mathcal{P}(\mathcal{D})$ — это маргинальная вероятность данных.

Частотные p-значения не учитывают априорные значения или маргинальные вероятности, что делает $\mathcal{P}(\mathcal{H_0} \mid \mathcal{D})$ недоступной без байесовских инструментов.


Нетехническое объяснение

Объяснить нетехнической аудитории, что такое p-значение, может быть достаточно сложно. У меня был определенный успех с следующим объяснением:

P-значение — это мера того, насколько удивительными были бы ваши данные, если бы нулевая гипотеза ($H_0$) была верна, и его можно рассматривать как вероятность получения данных, которые вы получили, или более экстремальных данных, если $H_0$ верна. Таким образом, низкое p-значение является доказательством против нулевой гипотезы.


Ссылки

  • Халер, Х., & Краус, С. (2002). Неверные интерпретации значимости: проблема, с которой сталкиваются студенты и их преподаватели. Методы психологических исследований, 7(1), 1–20. PDF
  • Гигеренцер, Г. (1993). Суперэго, Эго и Ид в статистическом мышлении. Справочник по анализу данных в поведенческих науках. Хиллсдэл, Нью-Джерси: Эрлбаум.
  • Вашерштейн, Р. Л., & Лазар, Н. А. (2016). Заявление ASA о p-значениях: контекст, процесс и цель. Американский статистик, 70(2), 129–133.

Ответ или решение

Что такое p-значения: Значение и истолкование

Определение p-значения

p-значение представляет собой статистическую меру, служащую для оценки достоверности результатов, полученных в ходе тестирования гипотез. В частности, p-значение обозначает вероятность наблюдения тестового статистического значения, равного или более экстремального, чем фактически полученное значение, при условии, что нулевая гипотеза (H₀) является верной. Формально это можно записать следующим образом:

[
\mathcal{P}(|\mathcal{T}| \geq |t| \mid \mathcal{H_0}),
]

где:

  • (\mathcal{T}) — это тестовая статистика, распределенная по известному закону вероятности при условии, что нулевая гипотеза верна (H₀);
  • (t) — наблюдаемое значение тестовой статистики, вычисленное из выборочных данных;
  • (\mathcal{H_0}) — нулевая гипотеза.

В контексте двумерного t-теста, p-значение будет рассчитываться как вероятность получения значения тестовой статистики, которое достаточно отклоняется от нуля, чтобы подтвердить альтернативную гипотезу (H₁), но не указывает на доказанность или опровергнутость гипотез.

Ошибочные интерпретации p-значений

К сожалению, данное значение часто неправильно интерпретируется. Важно заметить, что p-значение:

  1. Не подтверждает и не отвергает гипотезы. Оно указывает на вероятность наблюдаемых данных, если H₀ верна, но не дает окончательного ответа о истинности гипотез.

  2. Не является вероятностью истинности гипотезы. p-значение не позволяет сделать вывод о вероятности H₀ или H₁, поскольку не учитывает априорные вероятности.

  3. Не определяет вероятность ошибки типа I. Это значение не говорит о том, какова вероятность того, что мы сделали ошибочное решение, отвергнув нулевую гипотезу, которое обычно обозначается как α.

  4. Не гарантирует воспроизводимость результата. Статистический результат может зависеть от многих факторов, таких как размер выборки, вариабельность и эффект.

Анализ утверждений анкеты

Основываясь на опросе, проведенном Халлером и Крауссом (2002), можно отметить, что существует множество распространенных заблуждений относительно p-значений среди студентов и практикующих психологов. Рассмотрим каждое утверждение, чтобы внести ясность:

  1. "Вы опровергли нулевую гипотезу": Ложное. Нельзя доказать или опровергнуть гипотезу, можно лишь оценить, насколько вероятны полученные данные при условии верности H₀.

  2. "Вы нашли вероятность истины нулевой гипотезы": Ложное. p-значение не предоставляет такой информации.

  3. "Вы доказали вашу экспериментальную гипотезу": Ложное. p-значение лишь указывает на наличие статистически значимого результата, но не доказывает гипотезу.

  4. "Вы можете определить вероятность истинности экспериментальной гипотезы": Ложное. Как было упомянуто, это требует использования методов Бейеса.

  5. "Вы знаете, если решите отклонить нулевую гипотезу, какова вероятность, что вы ошибаетесь": Ложное. p-значение не дает информацию о вероятности ошибочного отклонения.

  6. "У вас надежное экспериментальное открытие, в смысле, что 99% повторений дадут значимый результат": Ложное. Повторяемость зависит от множества факторов и не может быть гарантирована исключительно на основе p-значения.

Корни заблуждений

Множество misinterpretations p-значений произошло из-за:

  • Ошибок в учебниках, которые неправильно связывают p-значение с вероятностью верности гипотез.
  • Упрощенного обучения, которое переносит акцент с концептуального понимания на механическое вычисление.
  • Неправильного использования терминологии, что создает ложные представления о вероятностях.

Заключение

В заключение, p-значение является важным инструментом в статистическом анализе, однако для его правильного использования необходима глубокая осведомленность о его значении и ограничениях. Применение p-значений должно быть дополнено четким пониманием контекста исследования и адекватным учетом всех статистических методов, чтобы избежать иллюзий и недопонимания. Знание правильной интерпретации p-значений позволяет специалистам в многопрофильных областях лучше принимать обоснованные решения и проводить более качественные научные исследования.

Оцените материал
Добавить комментарий

Капча загружается...