Вопрос или проблема
Предположим, что мы выполняем оценку плотности в m-мерном пространстве: мы оцениваем значение $p(a)$ для некоторой точки $a$, имея наблюдения $\{x_1, \dots, x_n \}$.
Известно, что если область $A \subset \mathbb{R}^m$ “достаточно” мала, чтобы считать плотность постоянной на точках из $A$, тогда можно сделать следующую оценку:
$$ p(a) \approx \frac{k / n}{|A|} $$
где $k$ — это количество наблюдений, лежащих в $A$, а $|A|$ — мера Лебега области $A$.
Пусть параметр $h$ достаточно мал, чтобы считать плотность постоянной внутри гиперкуба, центрированного на $a$, с длиной стороны, равной $h$. Объем этого гиперкуба равен $h^m$, и точка $x$ лежит внутри этого гиперкуба, если и только если $K(\frac{x-a}{h}) = 1$, где
$$K(u) =\cases {
1\text{, если $|\frac{u^k – a^k}{h}| \leq \frac{1}{2}, k = 1,\dots,m$}\cr
0\text{, иначе}
}$$
Легко видеть, что количество наблюдений внутри этого гиперкуба равно
$$k = \sum_{i = 1}^{n} K(\frac{x-a}{h})$$
и таким образом описанная выше оценка принимает следующую форму:
$$p(a) \approx \frac{1}{n h^m} \sum_{i = 1}^{n} K(\frac{x-a}{h}) $$
Мы можем интерпретировать $K$ как “вес”, присвоенный отдельным наблюдениям, и одним из недостатков гиперкубического подхода является то, что все наблюдения, лежащие внутри гиперкуба, имеют равный вес, несмотря на их различные расстояния от $a$. Еще один недостаток в том, что итоговая оценка не является непрерывной. Я понимаю, что это основная причина использования негиперкубических ядер, таких как гауссовское ядро, которое придает больше веса точкам, близким к $a$, и обеспечивает непрерывную оценку.
Но у меня возникают трудности с интерпретацией использования таких ядер. Сумма $\sum_{i = 1}^{n} K(\frac{x-a}{h})$ больше не равна $k$, поэтому мы не можем оправдать использование этих ядер формулой $p(a) \approx \frac{k / n}{|A|} $. Наконец, вот мои вопросы: как мы можем оправдать использование гладких ядер? как можно интерпретировать это использование?
Спасибо за любые идеи.
Гистограммы и методы, основанные на разбиении на интервалы, имеют ряд общеизвестных проблем. Различные опорные точки и т. д. могут вводить искусственные шаблоны, которые делают интерпретацию ненадежной. Гладкие ядра не используют сетку и таким образом сглаживают шум.
Это также имеет преимущество, поскольку позволяет легче получить общее представление о данных, поскольку учитываются соседние точки и данные сглаживаются в области, где они не наблюдаются.
Гладкие ядра также могут быть оправданы их благоприятными статистическими свойствами. Популярные методы, такие как fastKDE, используют тот факт, что можно найти “эмпирическое ядро, которое является оптимальным в том смысле, что интегрированное, квадратное различие между результирующим KDE и истинным PDF минимизировано.”
Если мы оцениваем плотность непрерывного распределения, возможно, нам следует ввести сюда интеграл, верно? Оценка ядра должна быть такой, что $\int_{-\infty}^{\infty}K(x)dx = 1$. Поэтому довольно легко видеть, что оценка для $f(x)$, называемая $\hat{f}(x)$, должна иметь следующее:
$\int_{-\infty}^{\infty}\hat{f}(x)dx = \frac{1}{n}\sum_{j=1}^{n}\frac{1}{h}K(\frac{x-a}{h}) $
$= \frac{1}{n}\sum_{j=1}^{n}1 = 1$. Естественно, потому что ядро и оценка для pdf больше 1, тогда наша покрытая функция тоже является функцией плотности вероятности.
Теперь немного подробнее: $\hat{f}(x)$ обычно выводится из определения производной эмпирической CDF. Так что вместо того, чтобы оправдывать это посредством метода окна Парзена, вы просто оправдываете это исходя из того, что значит быть pdf и каким вы хотите видеть хорошую оценку для этого pdf.
редактировать: Что касается knn и вашего оценивателя. Думаю, также важно осознать, что для любой фиксированной точки оценка ближайшего соседа является оценкой ядра. Однако, это отличается для каждой точки. Ядро по-прежнему остается оценкой, потому что каждая отдельная оценка является плотностью, так что в итоге ядро является линейной комбинацией плотностей. Кроме того, коэффициенты для k оценок будут суммироваться до 1.
Ответ или решение
Интуиция за использованием некубических ядер в оценке плотности
Оценка плотности — это важный аспект анализа данных, особенно в многомерном пространстве. Когда мы пытаемся оценить значение плотности ( p(a) ) для некоторой точки ( a ) на основании наблюдений ( {x_1, \dots, x_n } ), становится важным выбрать подходящий метод и ядро.
Проблемы гиперкубического подхода
При использовании гиперкубического ядра, все наблюдения внутри гиперкуба получают одинаковый вес независимо от их расстояния до точки ( a ). В математическом выражении, это формула:
[
p(a) \approx \frac{1}{n h^m} \sum_{i = 1}^{n} K\left(\frac{x-a}{h}\right),
]
где функция ( K(u) ) жестко ограничивает попадание в гиперкуб. Это приводит к нескольким проблемам:
-
Одинаковый вес для всех точек внутри гиперкуба: наблюдения, лежащие ближе к точке ( a ), получают такой же вклад в плотность, как и более отдаленные точки. Это может привести к смещению оценки.
-
Дискретность оценки: результат получается не непрерывным, а ступенчатым, что делает трудным интерпретацию особенно в многомерном пространстве.
Преимущества использования сглаживающих ядер
Использование сглаживающих некубических ядер, таких как гауссово ядро, позволяет рассматривать расстояние каждой точки от ( a ), предоставляя больше веса более близким точкам. Это дает более гладкую и наглядную оценку плотности. Интуитивно, такие ядра обладают рядом преимуществ:
- Гладкость оценки: сглаживающие ядра дают непрерывные оценки плотности, устраняя резкие переходы на границе гиперкуба.
- Адекватное взвешивание наблюдений: более близкие данные оказывают большее влияние, что улучшает адаптацию к локальным изменениям плотности в данных.
- Отсутствие сетки: не требуется использование сетки, что помогает устранить шум и более точно отражать распределение данных.
Статистическое обоснование выбора некубических ядер
Сглаживающие ядра обоснованы их статистическими свойствами. Например, можно выбрать ядро, минимизирующее интегральную квадратичную разницу между оцененной и истинной функциями плотности (такой подход реализован в методах, как fastKDE).
Заключение
Использование некубических ядер в оценке плотности расширяет возможности анализа, делая его более точным и гибким. Это особенно полезно в условиях реальных данных, где плотность может быть нелинейной и сложной. Выбор подходящего ядра, учитывающего взаимное положение точек в пространстве, помогает получить более точное и информативное представление о распределении данных.