Вопрос или проблема
Я создал гистограмму, а также QQ-график остатков моей регрессионной модели:
Среднее: 0.35
Стандартное отклонение: 18.14
Судя по этим графикам, можно ли сказать, что мои остатки нормально распределены?
И что еще я могу вывести из этих графиков?
Обновление: Создана гистограмма с использованием
ns.distplot(x, hist=True)
Вы можете провести статистический тест, чтобы подтвердить, что ваши данные нормально распределены.
Попробуйте:
from scipy import stats
np.random.seed(42)
x = np.random.normal(2, 1, size=1000)
k2, p = stats.normaltest(x)
alpha = 0.001
print("p = {:g}".format(p))
if p < alpha: # нулевая гипотеза: x происходит из нормального распределения
print("Нулевую гипотезу можно отвергнуть")
else:
print("Нулевую гипотезу нельзя отвергнуть")
Эта функция проверяет нулевую гипотезу о том, что выборка происходит из нормального распределения. Она основана на тесте Д’Агостино и Пирсона, который комбинирует скошенность и куртозис для создания универсального теста на нормальность.
Ответ или решение
Распределение остатков регрессии: Нормальное распределение или нет?
При проверке нормальности распределения остатков регрессионной модели, два основных визуальных инструмента, которые обычно используются, – это гистограмма и QQ-график (квантиль-квантиль). Основной задачей является определение, соответствуют ли остатки предположению о нормальности, которое является одним из основных требований к регрессионным анализам.
Анализ гистограммы остатков
Гистограмма остатков предоставляет визуальное представление распределения данных. Вы упомянули, что среднее значение остатков составляет 0.35, а стандартное отклонение — 18.14. Это говорит о том, что ваши остатки имеют достаточно большое разброс, который может повлиять на визуализацию их распределения.
На гистограмме следует обратить внимание на следующее:
- Форма распределения: Должна иметь колоколообразную форму для нормального распределения.
- Симметричность: Нормальное распределение симметрично относительно своего среднего значения. Наличие выбросов или скошенности может быть сигналом о том, что данные не являются нормальными.
Анализ QQ-графика
QQ-график позволяет сравнить квантили ваших остатков с квантилями нормально распределенной переменной. Если ваши данные нормально распределены, точки на QQ-графике должны находиться близко к диагональной линии:
- Отклонения от линии: Если точки значительно отклоняются от линии, это может сигнализировать о ненормальности.
- Конечные точки: Обратите внимание на поведение крайних точек; если они выходят за пределы, это может указывать на наличие выбросов.
Результаты анализа
По предоставленным вами графикам возможно предполагать следующее:
- Если гистограмма имеет выраженные пики и ассиметрию, а QQ-график показывает отклонения от диагонали, можно предположить, что остатки не являются нормально распределёнными.
- Если данные имеют схожесть с нормальным распределением, предположение о нормальности может быть приемлемым, но стоит учитывать результаты статистических тестов.
Статистические тесты на нормальность
Для более точного ответа можно применить статистический тест на нормальность, например, тест Д’Агостино и Пирсона, который вы также привели в примере. Этот тест позволяет определить, можем ли мы отвергнуть нулевую гипотезу о том, что данные основываются на нормальном распределении:
from scipy import stats
import numpy as np
np.random.seed(42)
x = np.random.normal(2, 1, size=1000)
k2, p = stats.normaltest(x)
alpha = 0.001
print("p = {:g}".format(p))
if p < alpha: # нулевая гипотеза: x происходит из нормального распределения
print("Нулевую гипотезу можно отвергнуть")
else:
print("Нулевую гипотезу отвергать нельзя")
Заключение
Ваша задача по проверке нормальности остатков регрессии требует как визуального, так и статистического анализа. Визуальные инструменты, такие как гистограммы и QQ-графики, дают общее представление о распределении данных, в то время как статистические тесты обеспечивают количественную проверку нормальности. Если визуальные и статистические методы указывают на отклонения от нормального распределения, то это может повлиять на интерпретацию результатов вашей регрессионной модели. Рекомендуется в дальнейшем рассмотреть возможность применения методов, менее чувствительных к данным, не обладающим нормальным распределением, таких как регрессия с использованием робастных методов.