Вопрос или проблема
В настоящее время я пытаюсь найти хорошие алгоритмы для выбора признаков. Использование корреляции или других неконструктивных методов не является правильным способом выбора признаков. Я ищу алгоритмы на Python или библиотеки, которые используют причинные эффекты для выбора признаков. В настоящее время они существуют только для двоичных исходов, я ищу для задачи регрессии, так что это должно быть непрерывным.
“Выбор признаков на основе причинности”
Лучший ресурс, который я нашел для готовых реализаций причинных выводов, это репозиторий на Github. Я лично использовал реализации Tetrad на R и Python, чтобы создать граф признаков, а затем закодировать дополнительный шаг для получения переменных в пределах марковской границы по отношению к целевой переменной для выбора признаков. Вы также можете использовать варианты алгоритма PC для достижения того же результата. Также есть обзорная статья, которая описывает множество алгоритмов для различных случаев.
Ответ или решение
Итак, вы ищете алгоритмы для выбора признаков на основе причинно-следственных связей, подходящие для задачи регрессии с непрерывной зависимой переменной. Это весьма актуальная задача, так как использование некорректных методик, таких как обычная корреляция, может привести к недостоверным результатам.
Введение в выбор признаков на основе причинности
Причинно-следственный подход к выбору признаков позволяет учитывать не только статистические зависимости, но также выявлять истинные причинные связи, что особенно важно в моделях машинного обучения для прогнозирования. Для непрерывных переменных это может оказаться не менее важным, чем для бинарных исходов.
Алгоритмы и библиотеки
-
Tetrad: Этот инструмент обеспечивает графовую модель причинности и может помочь в визуализации и построении причинных связей между признаками. Вы уже отметили его применимость для поиска переменных в Марковской границе по отношению к целевой переменной.
-
PC-алгоритм: Это один из классических методов, используемый для поиска причинно-следственных графов. Его можно адаптировать для работы с непрерывными переменными, что делает его универсальным инструментом для таких задач.
-
DoWhy и EconML: Эти библиотеки в Python также могут предложить инструменты для построения и оценки причинно-следственных выводов. DoWhy фокусируется на тестировании гипотез о причинности, в то время как EconML предлагает расширенные методы для анализа эконометрических моделей.
-
CausalImpact и CausalForest: Эти инструменты больше используются в контексте временных рядов и деревьев решений, соответственно, но могут быть адаптированы для работы с непрерывными данными при определенных настройках.
Практическая реализация
Вы упомянули репозиторий на Github как хороший источник готовых решений по причинному анализу. Действительно, в этом репозитории содержится многочисленные ссылки на библиотеки и статьи, которые могут быть полезны для изучения и применения.
Дополнительные ресурсы
Обзорная статья, которую вы отметили, предоставляет хорошее понимание всевозможных подходов к причинно-следственному выбору признаков. Изучение различных методов, предложенных в этой работе, может помочь в выборе подходящей техники для вашей конкретной задачи.
Заключение
В выборе признаков важно идентифицировать не только релевантные, но и причинно обоснованные характеристики. Правильное применение алгоритмов на основе причинности может значительно улучшить вашу регрессионную модель, особенно когда у вас есть дело с непрерывными данными. Настоятельно рекомендую приступить к экспериментам с библиотеками, такими как Tetrad и PC-алгоритм, чтобы достичь лучших результатов в вашей задаче.
SEO-оптимизация
Для увеличения видимости вашего материала в поисковых системах, включите ключевые слова, такие как "местоположение причинных особенностей", "алгоритмы на основе причинности" и "выбор признаков регрессии", которые соответствуют вашей основной теме и часто запрашиваются пользователями.