Вопрос или проблема
Я пишу отчет по анализу данных и хочу найти распределение, которое подойдёт для моей выборки. Я получил хороший результат , но когда я использовал тест Колмогорова-Смирнова (KS-test) для проверки модели, я получил низкое значение p, 1.2e-4, что, безусловно, означает, что я должен отвергнуть модель.
Я имею в виду, независимо от того, какое распределение/модель вы используете для подгонки выборки, вы не можете ожидать идеального результата, особенно при работе с большими объёмами данных. Так что же делает тест KS в отчете по анализу данных? Значит ли это, что только если у нас высокое значение p в тесте KS, то модель правильная?
В вашем случае нулевая гипотеза $H_0$ заключается в том, что ваша выборка следует распределению, которое выучила ваша модель. Альтернативная гипотеза $H_1$ заключается в том, что она следует какому-то другому распределению. Предполагая, что вы установили уровень значимости $\alpha$ на уровне $0.05$ (наиболее распространённый выбор для $\alpha$, но вы можете выбрать и более низкий уровень), получение значения p ниже этого порога означает, что вы должны отвергнуть нулевую гипотезу.
Значение p можно интерпретировать как вероятность ошибки первого рода, другими словами, ложноположительный результат: вероятность того, что вы отвергнете нулевую гипотезу, когда, на самом деле, она верна. В вашем случае отклонение гипотезы означает, что есть статистически значимые доказательства того, что распределение, которое выучила ваша модель, не является истинным распределением выборки. Так что да, вам нужно, чтобы значение p было как можно больше.
Вы используете тест Колмогорова-Смирнова для сравнения вашей выборки с эталонным распределением, в данном случае это тест с одной выборкой. Я бы сказал, что получение высокого значения p означает: “крайне маловероятно, что ваша модель выучила неправильное распределение”. Другими словами, есть высокая вероятность, что она выучила довольно хорошее приближение истинного распределения. Однако ничего не является абсолютным при проведении статистического гипотезного тестирования!
Я не уверен, что показывают ваши графики, поскольку на них, похоже, нет эмпирической функции накопления (линии выглядят гладкими).
Значение p интерпретируется как вероятность ошибки первого рода. Другими словами, ложноположительный результат: вероятность того, что вы отвергнете нулевую гипотезу, когда она, на самом деле, верна.
Вы используете тест Колмогорова-Смирнова.
“Когда я использую тест KS для проверки модели, я получаю низкое значение p, 1.2e-4, определённо я должен отвергнуть модель.” Ответ – ваше низкое значение p не указывает на то, что предложенная модель должна быть отвергнута. Значение p просто указывает на вероятность совершения ошибки первого рода, которая довольно низка в вашем случае. Низкое значение p, то есть альфа, подразумевает, что ваша модель очень хорошо предсказывает. В общем, тест подтверждает корректность вашей модели.
Значит ли это, что только если у нас высокое значение p в тесте KS, то модель правильная? – “Нет”.
Ответ или решение
Для ответа на ваш вопрос о том, как использовать тест Колмогорова-Смирнова (KS-тест) в отчете по науке о данных, важно понять, что этот тест служит для проверки соответствия распределения ваших данных определенной теоретической модели распределения.
Основные понятия
- Нулевая гипотеза (H₀): В вашем случае нулевая гипотеза утверждает, что ваш образец данных следует выбранному вами теоретическому распределению.
- Альтернативная гипотеза (H₁): Альтернативная гипотеза предполагает, что данные следуют какому-либо другому распределению.
Интерпретация p-значения
- p-значение: Это вероятность того, что вы отвергли нулевую гипотезу, когда на самом деле она верна. Если p-значение низкое (например, 1.2e-4, как в вашем случае), это означает, что у вас есть статистически значимые данные, свидетельствующие о том, что модель не адекватно описывает распределение выборки.
Установка уровня значимости
При использовании KS-теста вы обычно устанавливаете уровень значимости (α), который часто выбирается равным 0.05. Если p-значение меньше этого уровня, вы отклоняете нулевую гипотезу.
Пример:
- Если вы получили p-значение 1.2e-4, и ваш α установлен на 0.05, то да, вы должны отклонить модель, поскольку p-значение значительно ниже α. Это указывает на то, что предложенная модель не является хорошим представителем ваших данных и что истинное распределение отличается от выбранного в модели.
Но что значит низкое p-значение?
Важно отметить, что низкое p-значение не обязательно указывает на полное отсутствие пригодности модели. Это может означать, что:
- Ваша модель не идеально описывает данные, но это не исключает возможность, что она дает разумные предсказания в определенных контекстах.
- Вы можете рассмотреть возможность пересмотра модели или выбора другого распределения.
Высокое p-значение и проверка модели
Если вы получили высокое p-значение (например, больше 0.05), это будет означать, что вы не имеете оснований отклонять нулевую гипотезу, что указывает на то, что ваша модель достаточно хорошо описывает данные. Однако это не является гарантией, что модель корректна; это просто говорит о том, что нет достаточных оснований для ее отклонения.
Заключение
Таким образом, KS-тест может служить важным инструментом в отчете по науке о данных, позволяя оценивать, насколько хорошо ваша модель соответствует фактическим данным. Однако его интерпретация должна быть выполнена осторожно. Низкое p-значение может указать на необходимость пересмотра вашей модели, в то время как высокое p-значение не гарантирует, что модель абсолютно правильная. Используйте KS-тест в сочетании с другими методами и визуальными оценками для более полного анализа ваших данных и модели.