Вопрос или проблема
Я собрал данные опроса бездомных людей, изучая их употребление наркотиков, уровень образования, возраст, пол и т.д. Я надеюсь провести логистическую регрессию, чтобы узнать, насколько бездомность (+ другие зависимые переменные) влияет на вероятность того, что ребенок использует наркотики.
DrugUser= B0 + B1Homeless + B3X3 + … + u
Однако из-за ограничений исследования мне не удалось провести случайный опрос, я опрашивал только тех людей, которые пришли в приют для бездомных (Удобная выборка?). Поэтому большинство выборки составили бездомные люди. Значит ли это, что любые результаты, которые я получу для B1, будут ложными, поскольку почти вся выборка состоит из бездомных детей, а не из случайной выборки населения?
Таким образом, есть ли способ измерить влияние бездомности на употребление наркотиков, учитывая качество данных?
Если нет, могу ли я все же точно измерить влияние других переменных на вероятность того, что человек употребляет наркотики, которые не искажаются этой удобной выборкой (например, возраст, пол и т.д.)?
Существует ли способ использовать данные опроса, подобные этим, для проведения логистической регрессии?
Вы можете моделировать данные опроса с помощью логистической регрессии. Опрос в лучшем случае может предоставить доказательства для корреляции, но никогда для причинности. Применимость корреляции зависит от методологии опроса и последующего анализа.
Существует решение о том, как обрабатывать выводы по параметрам. Другими словами, насколько далеко простираются выводы?
Самым консервативным подходом будет считать результаты сводной статистикой эмпирической выборки. Шаг дальше будет предполагать, что результаты являются репрезентативными для других “индивидуумов, которые пришли в приют для бездомных”. Дополнительным расширением будет применение результатов к другим бездомным, которые не искали укрытия.
В конечном итоге это субъективное решение.
Ответ или решение
Логистическая регрессия – это мощный инструмент для анализа зависимостей между переменными, особенно когда речь идет о бинарных исходах, таких как употребление наркотиков. Однако, как вы отметили, качество данных, собранных с помощью удобной выборки (convenience sampling), может существенно повлиять на достоверность и интерпретацию ваших результатов.
Логистическая регрессия и удобная выборка
Сначала стоит понять, что неудобная выборка подразумевает, что участники были выбраны не случайным образом, а на основании доступности. В вашем случае, вы опрашивали только тех, кто пришел в приют для бездомных, что может привести к смещению результатов. Это означает, что данные, собранные в рамках исследования, скорее всего, не будут представлять всю популяцию бездомных, а лишь ее часть, которая решила воспользоваться услугами приюта.
Влияние бездомности на потребление наркотиков
Ваши опасения относительно того, что результаты для параметра B1 (влияние бездомности на употребление наркотиков) могут быть ложными, оправданы. Поскольку большинство выборки составляют бездомные дети, выводы о влиянии бездомности на риск употребления наркотиков могут быть искажены. В намеченном анализе, также стоит учитывать, что бездомность сама по себе может быть следствием множества факторов, и ваш анализ может не охватывать все возможные влияния.
Возможности анализа других переменных
Несмотря на ограничения, связанные с основной переменной (бездомность), вы все равно можете провести логиcтическую регрессию для изучения влияния других переменных, таких как возраст, пол и уровень образования на вероятность употребления наркотиков. Однако важно понимать, что результаты не могут быть обобщены на всю популяцию бездомных или на детей, не являющихся бездомными. В этом случае результаты вашего исследования будут полезны для понимания взаимосвязей только в рамках вашей выборки.
Как правильно интерпретировать результаты
При интерпретации результатов гибкости в выводах предлагается несколько подходов:
-
Статистические сводки выборки: Самый консервативный подход — рассматривать результаты как статистические сводки вашей выборки, подчеркивая, что они не могут быть обобщены на более широкую популяцию.
-
Расширение на схожую группу (безопасное предположение): Предположить, что результаты могут быть репрезентативными для других людей, обращающихся в приюты.
-
Экстраполяция на всех бездомных: Наиболее рискованный подход — распространить результаты на всю популяцию бездомных, что может привести к ложным выводам.
Заключение
В конечном счете, решение о том, как использовать и интерпретировать данные вашей выборки, будет зависеть от контекста исследования и целей. Ваша работа может внести вклад в понимание факторов, влияющих на употребление наркотиков среди детей в приюте, но важно учитывать ограничения, вызванные удобной выборкой. Поэтому выполнение анализа по другим переменным — весьма перспективное направление, но вы должны сохранять осторожность в выводах, чтобы избежать искажения реальности и непонимания результатов.
Постарайтесь уведомить читателей и заинтересованные стороны о методологии, предупредив о потенциальных ограничениях и контексте, с которым вы работаете.