Как выполнить отбор признаков с категориальными переменными и непрерывной целевой переменной, если данные не распределены нормально?

Вопрос или проблема

Я пытаюсь использовать модель множественной линейной регрессии для прогноза зарплат сотрудников. У меня есть всего 88 зависимых характеристик, из которых 19 категориальные, а остальные – непрерывные. Я смог уменьшить количество непрерывных характеристик с 69 до 41. Теперь я пытаюсь сократить количество категориальных характеристик, но поскольку мои данные не нормально распределены, я не могу использовать t-тест или ANOVA. Какие другие тесты я могу использовать, чтобы выяснить, являются ли характеристики значимыми для предсказания целевой переменной?

Будьте осторожны с отбором признаков! Не полагайтесь исключительно на методы выбора признаков. Они могут быть иногда обманчивыми. Вот процесс, который я обычно следую:

1.) Первое, что нужно сделать, это построить базовую модель, в которой будут учитываться все признаки, и записать ее эффективность. Это даст вам базовый коэффициент для сравнения. (Не выполняйте настройку гиперпараметров на этом этапе!)

2.) Теперь вы выполняете инженерию признаков, где смотрите, можете ли вы объединить несколько признаков в один. Например, у вас есть 3 признака: дата, месяц и год продажи автомобиля. Вы можете объединить все 3 в один признак – возраст. Это уменьшит размерность вашего набора данных.

3.) Здесь вы пытаетесь удалить любые выбросы/нелогичные значения из признаков. Например, в случае предсказания цены автомобиля, у вас год выпуска автомобиля 1900. Это нелогичное значение и не поможет модели. Вы можете смело удалить его. (Осторожно с тем, как вы работаете с выбросами, потому что удаление их – это не единственное решение, но это уже другая тема!)

4.) Теперь вы можете выполнить отбор признаков. Существует довольно много техник, которые вы можете использовать, такие как методы фильтрации, обертки и гибридные методы. Но не используйте их слепо, так как они могут быть обманчивыми. Вместо этого используйте экспертное мнение для удаления любых избыточных признаков (что я обычно и делаю).

Применение всех вышеперечисленных методов обычно приводит к удалению избыточных признаков. Если нет, то переходите к техникам отбора признаков, упомянутым в пункте 4.)

Надеюсь, это поможет вам!

Если я правильно понял ваш вопрос, вы спрашиваете, как уменьшить категориальные признаки в наборе данных. Если да, то несколько методов, о которых я могу подумать:

  1. Итеративный процесс – Постройте модель со всеми числовыми признаками и одним категориальным признаком, затем оцените улучшение модели по любым используемым вами метрикам и затем добавляйте другие категориальные признаки и так далее. Таким образом, если у вас есть N категориальных признаков, вы будете строить N+1 моделей.

  2. Тест хи-квадрат для предикторов и целевых переменных.

  3. (то, что я использую) Постройте модель со всеми доступными признаками и измерьте ее эффективность, а затем используйте функциональность важности признаков этой модели, чтобы определить, какие признаки важны. В случае линейной регрессии, чем выше значение коэффициента, тем лучше признак. В качестве альтернативы, вы можете использовать регуляризацию L1 для проверки ненулевых признаков. Обязательно проверьте на много сравнению перед тем, как учитывать важность признаков в линейной регрессии.

Ответ или решение

Введение

При решении задач предсказания, таких как определение зарплат сотрудников, отбор признаков становится критически важным этапом, особенно когда у вас есть большое количество категориальных признаков и непрерывная зависимая переменная. В данной статье мы рассмотрим, как провести отбор признаков у категориальных переменных, учитывая, что ваши данные не подчиняются нормальному распределению.

Шаги по отбору признаков

  1. Создание базовой модели:
    Начните с построения модели, которая включает все доступные признаки. Это поможет вам установить базовый уровень производительности, с которым вы сможете сравнивать последующие улучшения. Не проводите гиперпараметрическую настройку на этом этапе; ваша цель — просто получить начальные результаты.

  2. Инженерия признаков:
    Рассмотрите возможность объединения нескольких признаков в один. Например, если у вас есть дата продажи автомобиля, вы можете извлечь возраст автомобиля и использовать это как один признак вместо того, чтобы оставлять три отдельных. Это значительно уменьшит размерность вашего набора данных и упростит модель.

  3. Удаление выбросов и ненадежных значений:
    Прежде чем переходить к отбору признаков, важно очистить данные от выбросов или нелогичных значений. Например, год выпуска автомобиля, равный 1900, не имеет смысла и может негативно повлиять на качество модели. Будьте осторожны с обработкой выбросов, так как их удаление не всегда является оптимальным решением.

  4. Методы отбора признаков:
    Существует несколько подходов к отбору признаков, которые могут быть применены к категориальным переменным с непрерывной целевой переменной:

    • Итеративный процесс: Постройте модель для каждого категориального признака по отдельности, добавляя их по одному и оценивая качество модели каждый раз. Это позволит вам выяснить, какие признаки действительно влияют на производительность модели.

    • Критерий хи-квадрат: Этот тест позволяет оценить зависимость категориального признака от целевой переменной. Он особенно полезен, когда данные имеют ненормальное распределение.

    • Построение модели с использованием всех признаков: Используйте все имеющиеся признаки, чтобы построить базовую модель, а затем проанализируйте значимость каждого признака с помощью коэффициентов. В случае линейной регрессии, чем выше значение коэффициента, тем более значим признак для модели. Также можно применить L1-регуляризацию для выявления непризнаков.

  5. Оценка мультиколлинеарности:
    Обязательно проведите анализ на предмет мультиколлинеарности между признаками. Это поможет избежать проблем, связанных с избыточностью информации и придаст более надежные оценки значимости признаков в модели.

Примечания и предостережения

Хоть методы отбора признаков могут быть полезными, важно помнить, что не следует полагаться на них исключительно. Они могут иногда вводить в заблуждение. Используйте свои знания о предмете для предвар filtro добора ненужных или избыточных признаков. Это может значительно улучшить качество итоговой модели.

Заключение

Отбор признаков – это критически важный этап в построении модели линейной регрессии, особенно с учетом категории признаков в сочетании с ненормальным распределением данных. Следуя изложенным рекомендациям, вы сможете улучшить производительность вашей модели, что в конечном итоге приведет к более точным предсказаниям зарплат сотрудников.مو

Оцените материал
Добавить комментарий

Капча загружается...