Вопрос или проблема
Я знаю точно, что сложные признаки проецируют данные в более высокие измерения, что делает ранее несепарируемые данные линейно сепарируемыми.
Но разве не правда, что эти сложные признаки будут сильно коррелировать с признаками, из которых они происходят?
Мой вопрос: стоит ли мне исключить более простые признаки из обучающего набора?
Это будет зависеть от основного отношения, например,
$Y = \alpha X_1 + \beta X_2 + \gamma X_1X_2$
В приведенном случае цель зависит от отдельных признаков, а также от взаимодействующих признаков ($X_1X_2$). Таким образом, вы не можете пропустить отдельные признаки.
То же самое будет верно и для полиномиальных функций,
$Y = \alpha X + \beta X^2$
Вы можете удалить исходные признаки для такого сценария,
$Y = \alpha X_1X_2$ Или,
$Y = \alpha X^2$
Еще одна интуиция заключается в том, что мы никогда не видим нулевой корреляции с исходными признаками, а также не получаем 100% корреляции с взаимодействующими признаками.
Это зависит от алгоритма машинного обучения, в который входят признаки. Если вы выберете алгоритм, который автоматически осуществляет отбор признаков, то вам не нужно вручную исключать признаки. Примеры алгоритмов машинного обучения, которые осуществляют автоматический отбор признаков, включают модели на основе деревьев и нейронные сети.
Если я правильно понимаю, инжиниринг признаков берет признаки с некоторыми более высокими порядками (нелинейными) отношениями к отклику и преобразует каждый в набор нескольких признаков? Если это так и в исходном признаке нет информации, которая не захватывается преобразованными признаками, я рекомендую удалить исходные признаки. В противном случае у вас будет дублированная информация, что может привести к переобучению.
Ответ или решение
Когда вы рассматриваете возможность удаления простых признаков после создания более сложных, важно учитывать несколько ключевых аспектов. На первый взгляд, сложные признаки могут представляться более полезными из-за их способности проецировать данные в более высокие измерения, что делает ранее несепарабельные данные линейно сепарабельными. Однако следует помнить, что корреляция между исходными и производными признаками может иметь значительное значение для вашей модели.
1. Зависимость от взаимосвязей:
Первое, что следует понимать, это то, что взаимосвязь между целевой переменной и простыми признаками может сохраняться. Например, в модели вида:
[ Y = \alpha X_1 + \beta X_2 + \gamma X_1X_2 ]
целевой показатель зависит как от исходных признаков, так и от их взаимодействий. В таких случаях игнорирование исходных признаков может снизить качество предсказания, так как модель не сможет уловить индивидуальные эффекты.
2. Градация слагаемых:
Ситуация может различаться в зависимости от структуры вашей модели. Например, в случае уравнения:
[ Y = \alpha X^2 ]
можно, возможно, исключить простой признак (X), если он не вносит дополнительной информации, и модель полностью захватывает его влияние через сложный признак.
3. Корреляция и дублирование информации:
Следует учитывать, что высокие уровни корреляции между простыми и сложными признаками могут привести к дублированию информации. Это может в свою очередь повысить риск переобучения модели на тренировочных данных. Если ваши сложные признаки полностью описывают информацию, которую предоставляют простые признаки, то рекомендуется удалить последние.
4. Выбор алгоритма:
Также стоит учитывать, какой алгоритм машинного обучения вы используете. Например, многие дерево-ориентированные модели и нейронные сети способны автоматически проводить отбор признаков и могут игнорировать менее значимые признаки в процессе обучения. Если вы используете аналогичный подход, возможно, нет необходимости вручную удалять простые признаки.
5. Проверка на переобучение:
Наконец, рекомендуется провести эксперименты: сравните модели с простыми и сложными признаками, чтобы оценить, как они влияют на качество предсказания. Используйте методы кросс-валидации, чтобы убедиться, что ваша модель не переобучается из-за наличия дублирующих признаков.
В завершение можно сказать, что решение о том, стоит ли удалять простые признаки, зависит от специфики ваших данных, используемой модели и целей вашего анализа. Проводите тщательный анализ и тестирование, чтобы оптимизировать свою модель и повысить ее предсказательную способность.