Вопрос или проблема
У меня есть два набора данных: один набор set1=[2,2,2,4.5] и другой набор set2=[2,1.5,2,4.5,2.5]. Если я построю их распределения, то set1 будет:
set2 будет:
Я бы сказал, что set2 имеет более широкое распределение, и поэтому ожидал бы более высокую дисперсию. Однако это не так. На самом деле, если я посчитаю в Matlab, var(set1)=1.5625 и var(set2)=1.3750.
Почему так?
Я понимал, что дисперсия является мерой ширины распределения, поэтому я ожидал, что у set2 будет большая дисперсия, так как у него более широкий диапазон изменчивости значений x.
Заранее благодарю за любые советы и извиняюсь, если это очень простой вопрос.
Ответ или решение
Вариация распределения – это основополагающая статистическая мера, которая показывает, насколько разбросаны значения в наборе данных относительно их среднего значения. Формально вариация (σ²) определяется как среднее значение квадратов отклонений каждого значения от среднего значения.
Определение вариации
Вариация рассчитывается по следующей формуле:
[
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2
]
где:
- ( \sigma^2 ) – вариация,
- ( N ) – общее число наблюдений,
- ( x_i ) – отдельно взятые значения из набора данных,
- ( \mu ) – среднее значение выборки.
Пример анализа ваших наборов данных
Рассмотрим ваши наборы данных:
- set1 = [2, 2, 2, 4.5]
- set2 = [2, 1.5, 2, 4.5, 2.5]
Рассчитать средние значения
-
set1:
- Среднее значение (( \mu_1 )):
[
\mu_1 = \frac{2 + 2 + 2 + 4.5}{4} = 2.625
]
- Среднее значение (( \mu_1 )):
-
set2:
- Среднее значение (( \mu_2 )):
[
\mu_2 = \frac{2 + 1.5 + 2 + 4.5 + 2.5}{5} = 2.5
]
- Среднее значение (( \mu_2 )):
Рассчитать вариацию
-
set1:
- Вариация (( \sigma^2_1 )):
[
\sigma^2_1 = \frac{(2 – 2.625)^2 + (2 – 2.625)^2 + (2 – 2.625)^2 + (4.5 – 2.625)^2}{4} = 1.5625
]
- Вариация (( \sigma^2_1 )):
-
set2:
- Вариация (( \sigma^2_2 )):
[
\sigma^2_2 = \frac{(2 – 2.5)^2 + (1.5 – 2.5)^2 + (2 – 2.5)^2 + (4.5 – 2.5)^2 + (2.5 – 2.5)^2}{5} = 1.375
]
- Вариация (( \sigma^2_2 )):
Анализ выводов
-
Интуитивное восприятие: Вы правильно заметили, что визуально set2 кажется более широким распределением, однако это не обязательно отражает его реальную вариацию. Вариация измеряет, насколько далеко значения от среднего положения, а не просто дифференцирует дисперсии по количеству значений.
-
Сравнение диапазона и вариации: В вашем случае set2 имеет большее количество значений и стремится к своему среднему значению. В то время как set1 содержит значения, которые сосредоточены вокруг его среднего, но одно значение (4.5) значительно выше.
Заключение
По сути, вариация показывает, насколько разбросаны значения в пределах набора данных. Даже если set2 визуально представляется более широким, средние отклонения каждого значения от его среднего (в данном случае 2.5) не превышают отклонений значений из set1 (среднее 2.625).
Важно помнить, что визуальная оценка качества распределения не всегда соответствует его математической интерпретации. Понимание концепции вариации и ее расчетов может значительно помочь в анализа любых наборов данных.