Вопрос или проблема
Существует множество моделей машинного обучения, основанных на данных. Легко назвать несколько из них: нейронные сети, линейная регрессия, SVM и так далее… но что такое моделирование, не основанное на данных (или модельное), и какие известные и практичные примеры существуют, например, для задач регрессии?
Если модель не выводится из данных, то она должна быть построена вручную, так что отсутствие зависимости от данных означает правило-ориентированный подход.
Это была большая тенденция в области искусственного интеллекта в 80-х годах до эпохи машинного обучения; эти системы автоматического прогнозирования до МЛ назывались экспертными системами и были в то время довольно успешными в промышленности (вот некоторые примеры приложений).
Способ построения системы для задачи регрессии в основном таков: выполнить весь анализ регрессии вручную, найти параметры и жестко зафиксировать их в системе прогнозирования.
Насколько я знаю, машинное обучение в значительной степени сделало этот вид систем, основанных на правилах, устаревшими из-за их полной негибкости и очень высокой стоимости ручного труда для их создания.
Методы, основанные на данных, полагаются на эмпирическое наблюдение и создают модели, которые сопоставляют наблюдаемые входные и выходные данные. Модели, не основанные на данных, могут быть построены на основе знаний о предметной области или первых принципов без необходимости в большом количестве экспериментальных данных, но обычно они ограничены вашим пониманием правил, управляющих системой.
Например, предположим, что кто-то хочет создать модель орбиты Земли вокруг Солнца. Можно было бы измерить положение Земли во времени и построить модель, основанную на данных, которая учитывает ваши наблюдения. Альтернативно, можно использовать знания о физических законах вселенной (гравитация и законы Ньютона) для построения модели орбиты Земли, которая будет чисто теоретической и не будет опираться на сбор большого количества данных.
Некоторые сложные системы, такие как погода или межмолекулярные силы, трудно наблюдать с достаточным разрешением, чтобы построить точную модель, основанную на данных. В таких сценариях, когда у нас нет данных, необходимых для построения хорошей модели на основе данных, все еще возможно построить физическую модель для прогнозирования. Долгосрочные прогнозы погоды, например, традиционно генерируются физическими моделями атмосферы, хотя модели, основанные на данных, которые напрямую обучены объяснению наблюдаемых данных, становятся более распространенными.
.
Ответ или решение
Моделирование, основанное на правилах или моделирование, не зависящее от данных, представляет собой метод, противопоставленный популярным в наше время моделям, зависящим от данных. При этом подходе используется теоретическое понимание системы и её законов для построения модели без необходимости собирать большое количество данных.
Что такое моделирование не на основе данных?
В отличие от моделей, зависящих от данных, которые полагаются на эмпирическое наблюдение и связь между входными и выходными данными, моделирование не на основе данных опирается на глубокое понимание предметной области или физических законов, которые описывают поведение системы. Например, движение Земли вокруг Солнца можно моделировать, используя законы гравитации и ньютоновскую механику, что позволит предсказать орбитальные траектории теоретически, без обширного эмпирического сбора данных.
Примеры моделирования на основе правил
В 1980-х годах до появления широкораспространенных методов машинного обучения большое внимание уделялось так называемым экспертным системам. Эти системы состояли из заранее заложенных правил и применялись для автоматизации предсказаний. Экспертные системы успешно использовались в различной индустрии, хотя со временем они были вытеснены из-за своей негибкости и высокой стоимости разработки. Таким же образом для задач регрессии могут быть разработаны системы, в которые параметры заложены вручную после того как были выведены через аналитическое решение.
Ограничения и преимущества
Модели, не основанные на данных, зачастую ограничены тем, насколько точно известны и поняты законы, управляющие системой. Это может быть как преимуществом, поскольку можно избежать сложностей с получением данных, так и недостатком, когда понимание системы ограничено. Например, сложные системы такие как атмосферные процессы требуют учёта многих переменных, что затрудняет использование только физических моделей.
Современное применение
Несмотря на выход на передний план методов машинного обучения, моделирование, не зависящее от данных, по-прежнему находит применение в сценариях, где недостаточно данных или где данные крайне сложны для интерпретации. Примером может служить прогнозирование долгосрочной погоды, которое по традиции осуществляется на основе физических моделей атмосферы, хотя тренды последних лет показывают усиливающееся влияние моделей на основе данных.
Заключение
Моделирование, основанное на правилах, остаётся актуальным, особенно в тех случаях, когда сбор данных затруднителен или когда необходимо использовать известное теоретическое знание. Однако его широкое применение сократилось в связи с развитием более гибких и адаптивных методов на основе данных.