Вопрос или проблема
Я работаю над проектом, в рамках которого мы собрали повторную кросс-секционную выборку данных за годы с 2011 по 2022 по всем штатам США. Набор данных основан на случайных опросах людей в каждом штате.
В течение исследовательского периода было реализовано две политики: первая в 2014 году, а вторая, являющаяся продлением первой, в 2019 году. Я хотел бы провести исследование событий, чтобы оценить предположение о параллельных трендах до 2014 года и изучить тренды после вмешательства.
Поскольку исследования событий обычно разрабатываются для панельных данных, я не уверен, как поступить, чтобы получить надежные результаты, используя повторные кросс-секционные данные.
Один из подходов, который я рассматриваю, это использование команды eventdd в Stata следующим образом:
eventdd exerany2 i.iyear#24._state i.sex i._educag i._ageg5yr i._race_g if contig_us == 1 & iyear <= 2018 [pw = _llcpwt], timevar(treat_year) ci(rcap) vce(robust) level(90) graph_op(ytitle("Физическая активность") xlabel(-3(1)5))
В этом подходе я сосредотачиваюсь на годах с 2011 по 2018, чтобы проанализировать только первую политику, принятую в 2014 году. Я создал переменную под названием treat_year, которая принимает значения от -3 до 4, где -3 соответствует 2011 году (три года до принятия политики), а 4 соответствует 2018 году (четыре года после реализации политики).
Взаимодействие между годом и штатом (т.е. i.iyear#24._state) включено для создания структуры Разница в Разницах, где номер штата 24 — это интересующий нас штат, где были реализованы политики.
Второй подход, который я рассматриваю, следующий:
quietly regress exerany2 i(2014(1)2022).iyear#24._state i.iyear i._state i.sex i._educag i._ageg5yr i._race_g if contig_us==1 [pw = _llcpwt], vce(robust) level(90)
coefplot (,keep(*iyear#24._state) ///
rename(^([0-9]+).iyear#24._state$ = \1, regex)), ///
vertical nolabel ///
xline(5.5, lcolor(gs12) lpattern(dash)) yline(0, lcolor(gs12) lpattern(dash)) ///
name(did_`v', replace)
Однако в этом втором подходе я не могу указать 2014 год как год, когда была реализована политика.
Я очень буду признателен за любые советы о том, как получить надежные результаты для исследования событий при работе с повторными кросс-секционными данными. Любые предложения или рекомендации будут очень полезны.
Ответ или решение
Для проведения событийного исследования с использованием повторных кросс-секционных данных в контексте вашей задачи, вам необходимо учитывать несколько ключевых моментов. Ваша цель – оценить эффект внедрения двух политик: первой в 2014 году и расширения этой политики в 2019 году, а также проверить предположение параллельных трендов до 2014 года и проанализировать постлечебные тренды.
Предварительная проверка параллельных трендов
Прежде всего, убедитесь в том, что у вас есть достаточные наблюдения до 2014 года для проверки предположения параллельных трендов. Вам необходимо отобразить графически тренды в различных группах (например, те, кто подвержен воздействию политики и те, кто не подвержен). Так как у вас есть данные за 2011-2013 годы, проверьте их на наличие схожих трендов.
Первый подход с использованием eventdd
Ваш подход с использованием команды eventdd
выглядит разумным. Убедитесь, что:
-
Формирование переменной treat_year: Как вы описали, переменная
treat_year
должна корректно отражать временные отрезки. Например, значение -3 для 2011 года и 4 для 2018 года – хороший выбор. -
Статус государственных переменных: Убедитесь, что ваш индикатор для штата (например,
i.iyear#24._state
) правильно создает взаимодействие между годами и конкретным штатом. -
Контрольные переменные: Включение переменных (как
sex
,educag
,ageg5yr
иrace_g
) в вашу модель также является необходимым шагом для учета возможных смещений.
Ниже представлен пример корректной команды, которую вы можете рассмотреть:
eventdd exerany2 i.iyear#c.treat_year i.sex i.educag i.ageg5yr i.race_g if contig_us == 1 & iyear <= 2018 [pw = _llcpwt], timevar(treat_year) ci(rcap) vce(robust) level(90) graph_op(ytitle("Physical Activity") xlabel(-3(1)4))
Второй подход с использованием простой регрессии
Ваш второй подход с регрессией позволяет вам получить оценки эффектов по годам, однако, действительно, вы не можете явно указать год 2014 как год внедрения политики. Вместо этого вы можете использовать временные переменные для оценки трендов.
Попробуйте следующую модель:
quietly regress exerany2 i.iyear#c.state i.sexe i.educag i.ageg5yr i.race_g if contig_us==1 [pw = _llcpwt], vce(robust)
coefplot (,keep(*iyear#*state) ///
rename(^([0-9]+).iyear#24._state$ = \1, regex)), ///
vertical nolabel ///
xline(4.5, lcolor(gs12) lpattern(dash)) yline(0, lcolor(gs12) lpattern(dash)) ///
name(did_`v', replace)
Здесь, вместо указания конкретного года 2014, вы оцениваете взаимодействия между годами и штатами, получая коэффициенты по годам для каждого штата.
Оценка результатов
-
Сравнение отслеженных коэффициентов: После выполнения обеих моделей, сравните полученные коэффициенты для оценки влияния каждой политики на физическую активность (
exerany2
). Убедитесь, что тренды, полученные до 2014 года, действительно являются параллельными. -
Визуализация: Постройте графики коэффициентов с соответствующими доверительными интервалами для визуализации влияния политик во времени.
-
Проверка устойчивости: Проверьте модель на устойчивость, возможно, выполнив дополнительные регрессионные модели с различными спецификациями для убедительности ваших выводов.
Заключение
Работа с повторными кросс-секционными данными может быть сложной, но с правильным выбором моделей и оценкой предположений вы сможете получить надежные результаты. Убедитесь, что ваши выборки достаточно велики и представляют интересующие вас группы, и проводите дополнительные проверки для удостоверения в правильности полученных оценок.