Вопрос или проблема
Мне трудно понять четкое различие между гипотезой и гиперплоскостью.
Я знаю, что гипотеза — это кандидат в модель, которая соотносит входы с выходами после обучения. А гиперплоскость — это граница принятия решений в алгоритме классификации.
Но я не могу понять, как эти два понятия различаются в уравнениях.
Может кто-то помочь мне понять их различия в уравнениях с некоторыми визуализациями?
Предположим, вы хотите изучить конкретное отображение из $\mathbb{R}^{n}$ в $\mathbb{R}^{m}$.
Дальнейшие пояснения предполагают, что вы имеете в виду контролируемое обучение.
Гиперплоскость
Гиперплоскости играют ключевую роль в нейронных сетях.
Рассмотрим множество $H_{v,d} := \{x \in \mathbb{R}^{n} \mid \langle x,v \rangle = d \} $ для $v \in \mathbb{R}^{n}$ и $d \in \mathbb{R}$.
Для $v = 0$ мы имеем $H_{v,d} = \begin{cases} \emptyset & d \neq 0 \\ \mathbb{R}^{n} & d = 0 \end{cases}$
Если $v \neq 0$, то $\dim(H_{v,d}) = n-1$ и $H_{v,d}$ является гиперплоскостью.
Если $d= 0 $, $H_{v,d}$ представляет собой векторное пространство (проходящее через начало координат), в противном случае это аффинное пространство.
В общем, гиперплоскость — это аффинное подпространство с коразмерностью 1, которое имеет вид $H = v + U := \{v+u \mid u \in U \}$, где $U$ — это подпространство размерности $\dim(U) = n-1$.
Например, в задаче бинарной классификации гиперплоскость может использоваться для разделения двух классов. Геометрическое объяснение роли гиперплоскости в нейронных сетях можно найти здесь.
Короче говоря, нейронная сеть использует для каждого нейрона гиперплоскость (в скрытом или выходном слое), чтобы определить выходное значение нейрона. Все точки на одной стороне (относительно гиперплоскости) либо отображаются в одно и то же значение (используя функцию Хевисайда), либо зависят от расстояния до гиперплоскости (например, используя сигмоидную функцию). Это понимание может быть использовано для интерпретации отображения входного вектора в слой $l>1$. По существу, нейронная сеть обучается расположению гиперплоскостей, которые определяют регионы. Каждый регион отображается в одно и то же значение (в случае функции Хевисайда) или снова, он зависит от положения внутри такого региона (см. здесь)
Гипотеза модели
Гипотеза модели обычно относится к чему-то другому. Мы рассматриваем множество гипотез модели $\mathcal{H}$, и каждая модель $h \in \mathcal{H}$ может быть использована в качестве желаемого отображения. Например, мы можем определить множество $$P[n] := \left \{ \begin{align*}
f: \mathbb{R}^{n} &\rightarrow \mathbb{R} \\
x &\mapsto \sum_{r = 0}^{n} \sum_{\substack{b_{1}+\ldots+b_{n} = r \\ b_{k} \in \mathbb{N}, \forall k} } a_{b_{1},\ldots,b_{r}} \prod_{s = 1}^{r} x_{s}^{b_{s}}
\end{align*} \middle \rvert a_{b_{1},\ldots,b_{r}} \in \mathbb{R}
\right \}. $$
Это множество собирает все многомерные полиномы степени не выше $n$.
Затем мы можем рассмотреть множество гипотез
$\mathcal{H} := \left \{
\begin{align*}
f:\mathbb{R}^{n} &\rightarrow \mathbb{R}^{m} \\ x &\mapsto \begin{pmatrix} p_{1}(x) \\ \vdots \\ p_{m}(x) \end{pmatrix} \end{align*} \middle \lvert p_{1},\ldots,p_{m} \in P[n]
\right \}$.
Таким образом, $h \in \mathcal{H}$ сопоставляет входной вектор $x$ с $h(x) = y$, где каждый компонент $y_{u}$ задается многомерной полиномиальной функцией в $x$ степени не выше $n$.
Задача обучения заключается в том, чтобы найти лучшие коэффициенты, которые приведут к оптимальной гипотезе $h^{*} \in \mathcal{H}$, которая используется для выполнения вывода. Здесь оптимальный означает, что мы находим лучшую модель в множестве всех рассматриваемых моделей в $\mathcal{H}$.
Аналогично для нейронных сетей, если “архитектура” нейронной сети фиксирована, это определяет множество гипотез $\mathcal{H}$, где каждая $h \in \mathcal{H}$ использует одну и ту же архитектуру нейронной сети, но с конкретным выбором весов.
Обучение нейронной сети в итоге дает модель $h \in \mathcal{H}$ с “оптимальными” весами (на практике веса часто не являются оптимальными).
Таким образом, в кратце, множество гипотез модели $\mathcal{H}$ определяет, какие отображения могут быть использованы. Обучение в рамках контролируемого обучения затем выбирает лучшую гипотезу $h \in \mathcal{H}$.
Ответ или решение
Гипотеза против Гиперплоскости в Машинном Обучении
В мир машинного обучения термины "гипотеза" и "гиперплоскость" имеют особое значение, и понимание их различий критически важно для анализа алгоритмов и построения моделей. В этом ответе я детально объясню каждое понятие, дам математическое обоснование и визуализацию, чтобы прояснить, как эти две концепции взаимодействуют и чем отличаются друг от друга.
1. Гипотеза
Определение и Формула:
Гипотеза в контексте машинного обучения представляет собой кандидата, который описывает предполагаемое отображение входных данных на выходные значения. Множество гипотез обозначается как ( \mathcal{H} ), где каждая гипотеза ( h \in \mathcal{H} ) является функцией, которая сопоставляет входные данные ( x ) с выходными значениями ( y ) (например, ( h(x) = y )).
Предположим, что мы работаем с полиномиальными функциями. Мы можем описать множество гипотез следующим образом:
[
\mathcal{H} := \left{ f: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m} \mid x \mapsto \begin{pmatrix} p{1}(x) \ \vdots \ p{m}(x) \end{pmatrix}, \; p_{i}(x) \in P[n] \right} ,
]
где ( P[n] ) обозначает многочлены степени не выше ( n ).
Цель:
Задача машинного обучения заключается в нахождении оптимальной гипотезы ( h^{*} \in \mathcal{H} ), которая минимизирует функцию потерь между предсказанными и истинными значениями.
2. Гиперплоскость
Определение и Формула:
Гиперплоскость – это геометрический объект, который служит границей между различными классами в задачах классификации. Она определяется уравнением:
[
H_{v,d} := {x \in \mathbb{R}^{n} \mid \langle x, v \rangle = d} ,
]
где ( v ) – вектор нормали к гиперплоскости, а ( d ) – смещение.
Для вектора ( v \neq 0 ) гиперплоскость имеет размерность ( n-1 ). Если ( d = 0 ), гиперплоскость проходит через начало координат.
Визуализация:
В двумерном пространстве геометрию гиперплоскости можно представить как прямую, разделяющую плоскость на две половины. В многомерном пространстве гиперплоскость, соответственно, будет иметь размерность на одну меньше.
3. Сравнение и Взаимосвязь
-
Контекст: Гипотеза является функцией, описывающей целевой выход на основе входного вектора. Гиперплоскость – это конкретная реализация границы между классами для линейных классификаторов.
-
Уравнения: Гипотеза описывается как функция отображения ( h: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m} ). Гиперплоскость описывается уравнением, основанным на векторе нормали и смещении. Например, для классификации два класса могут быть разделены гиперплоскостью, где один класс соответствует ( \langle x, v \rangle \geq d ), и другой ( \langle x, v \rangle < d ).
-
Процесс обучения: В процессе обучения гипотеза адаптируется, чтобы минимизировать ошибку предсказания с помощью оптимизации весов. Отделение классов осуществляется путем нахождения наилучшей гиперплоскости, которая дает хорошую обобщающую способность для модели.
Заключение
Различие между гипотезой и гиперплоскостью может заключаться в их определении и применении в контексте машинного обучения. Гипотеза – это вся сложная структура, которая определяется в процессе обучения на основе входных данных и целевых значений, в то время как гиперплоскость представляет собой простую геометрическую форму, используемую для разделения классов. Понимание этих концепций и их взаимосвязи позволит вам более эффективно разрабатывать и анализировать алгоритмы машинного обучения.