Регрессионная модель для непрерывной зависимой переменной и количественных независимых переменных

Вопрос или проблема

В данный момент я изучаю R и относительно новичок в этой области. Надеюсь, что смогу получить от вас советы!

Я работаю над проектом, в котором мне необходимо оценить среднее время обработки различных рабочих заданий (задач).

У меня есть следующие панельные данные:

Размер моей выборки составляет n=2000 индивидуальных работников, и T=10 (каждый временной интервал – это четырехнедельный период)

  • Независимые переменные: 51 различный рабочий элемент. У меня есть данные по количеству для каждого рабочего элемента (количество раз, когда они выполняются каждым работником за четырехнедельный период)

  • Зависимая переменная: Общее рабочее время работника (за 4 недели)

Цель моего анализа – найти коэффициенты регрессии (которые являются оценками среднего времени выполнения каждого рабочего элемента). Я также могу включить другие регрессоры (кроме # рабочих элементов), такие как опыт, возраст… в мою модель.

y= Bo + B1*X1 +…+Bk*Xk + e

y: общее рабочее время
X: # каждого типа рабочих элементов

Проблемы:

На данный момент я завершил очистку и обработку данных и провел некоторые предварительные исследования данных.

  1. Некоторые рабочие элементы имеют много нулей (рабочий элемент выполняется всего один или два раза несколькими работниками за указанный период).

  2. Согласно VIF, я вижу, что в независимых переменных присутствует несовершенная мультиколлинеарность. Некоторые независимые переменные имеют VIF от 5 до 6.

Вопросы:

  1. Есть ли какие-либо советы по тому, как мне следует задать свою модель?

Я смотрю на боксплоты и устраняю выбросы каждого регрессора, вижу, что некоторые регрессоры сильно смещены (из-за большого количества нулей).

Я также строю графики для каждого регрессора относительно общего времени завершения, чтобы проверить, есть ли какая-либо линейная связь. Некоторые выходят более похожими на квадратичную зависимость.

  1. Есть ли способ справиться с мультиколлинеарностью, кроме как устранять регрессоры с высоким VIF? Это потому, что мне нужно оценить коэффициент каждого рабочего элемента.

  2. Должен ли я установить свободный член равным 0? Я точно знаю, что когда ВСЕ регрессоры равны 0 (количество рабочих элементов – все 0), я должен получить нулевые общие рабочие часы.

Я также был бы признателен за любые другие советы по этой проблеме. Спасибо!

Поскольку вы хотите сохранить все предикторы, вам следует попробовать реализовать гребневую регрессию, которая является техникой регуляризации, широко используемой для решения проблем мультиколлинеарности, таких как ваша, с помощью уменьшения коэффициентов.

Ответ или решение

Для решения задачи регрессии с непрерывной зависимой переменной и счетными независимыми переменными, как представлено в вашем проекте, необходимо учитывать множество факторов. Обсуждая ваши вопросы, я предлагаю следующую структуру и рекомендации по построению вашей модели.

1. Спецификация модели

Ваши независимые переменные — это количество выполненных каждым работником задач в течение четырехнедельного периода, а зависимая переменная — общее количество рабочих часов. Ваша основная модель может быть записана следующим образом:

[ y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + … + \beta_k X_k + \epsilon ]

где ( y ) — это общее количество часов, а ( X_1, X_2, …, X_k ) — количество выполнения различных задач.

1.1. Обработка нулевых значений

Поскольку некоторые переменные имеют значительное количество нулевых значений, можно использовать методы, такие как:

  • Преобразование данных: Логарифмические или коренные преобразования могут помочь сгладить распределение. Для работы с нулевыми значениями можно добавить малое число (например, 1) перед выполнением логарифмического преобразования.
  • Модели с учетом нулевых значений: Рассмотрите возможность использования моделей, таких как модель с частичным нулевым распределением, которые лучше подходят для данных с большим количеством нулей.

1.2. Направление: Полиномиальные и интериальные функции

Изучая соотношения с зависимой переменной, вы упомянули о наличии возможной квадратичной зависимости. Рекомендуется исследовать такие преобразования для ваших независимых переменных:

[ X^2 ] или новые переменные, такие как полиномиальные функции, что может улучшить качество модели.

2. Обработка мультиколлинеарности

Проблема мультиколлинеарности может значительно исказить ваши результаты. Хотя вы хотите сохранить все предикторы, есть несколько подходов для решения этой проблемы:

  • Регрессия с штрафами: Используйте метод гребневой регрессии (ridge regression) или лассо-регрессию (Lasso regression). Эти методы помогут уменьшить влияние предикторов с высокой коррелированной мощностью без полного исключения переменных. Это особенно полезно, когда вы хотите получить более стабильные оценки коэффициентов.

  • Проверка повторяемости: Проанализируйте, какие переменные вызывают мультиколлинеарность. Используйте шаговый отбор переменных, чтобы исключить менее значимые переменные, даже если вы хотите сохранить их.

3. Значение интерсепта

Оставлять интерсепт равным нулю — это важное решение, особенно в контексте вашей задачи. Если вы уверены, что при нулевых значениях всех независимых переменных вы должны получить нулевую зависимую переменную, можете попробовать установить интерсепт в 0. Однако это может повлиять на качество модели и предсказания, так что стоит проверить, как это повлияет на ваши результаты.

4. Дополнительные рекомендации

  • Частная регрессия и модели смешанных эффектов: Учитывая, что у вас есть панельные данные, рассмотрите возможность использования моделей с фиктивными эффектами или смешанных моделей (mixed effects models). Это может быть полезно, чтобы учесть индивидуальные различия между работниками.

  • Визуализация и диагностика модели: После построения модели проведите диагностику, чтобы проверить предположения о линейности, гомоскедастичности и нормальности остатков.

  • Кросс-валидация: Не забывайте применять кросс-валидацию для оценки качества вашей модели, чтобы избежать переобучения.

В заключение, успешное построение модели требует тщательного выбора методов и серьезного анализа ваших данных. Уделите внимание узким местам, и это приведет к улучшению ваших результатов. Удачи в вашем проекте!

Оцените материал
Добавить комментарий

Капча загружается...