Вопрос или проблема
Я работаю над проектом, в котором у меня есть профили пользователей Twitter и их твиты. Пользователи разделены на две группы в зависимости от количества подписчиков (g1
и g2
). Затем для каждого пользователя из g1
был сопоставлен один пользователь из g2
на основе их профиля и активности с использованием метода ближайшего соседа (не по баллу предрасположенности). Теперь я хочу провести некоторые статистические тесты, например, как отличается настроение твитов для этих двух групп до и после определенных событий. У меня есть, скажем, твиты, размещенные в течение 7 дней до и после определенной даты, и я оценил средние оценки настроения всех твитов, размещенных каждым пользователем в каждой группе. Размеры выборок для двух групп разные (несмотря на то, что они были сопоставлены), так как не все публиковали твиты в указанный период. Теперь, если я хочу провести t-тест, чтобы узнать, есть ли у людей в g1
большее положительное изменение настроения, чем у g2
после контрольной даты. У меня есть следующие вопросы:
- Я провожу независимый t-тест, рассматривая каждого пользователя в каждой группе независимо. Для каждого человека я беру разницу (до и после) в средних оценках настроения для обеих групп, а затем тестирую, есть ли значительное отличие между группами по изменению оценок настроения. Это уместно или мне стоит провести тест на сопоставленные пары? Я ознакомился с другими постами здесь, но не нашел однозначного ответа.
- Пользователи, которые не публиковали твиты в указанном диапазоне времени, можно ли считать разницу в средних равной нулю, или мне стоит исключить их из выборок?
Заранее спасибо. Удачи!
Что касается вашего второго вопроса:
Пользователи, которые не публиковали твиты в указанном временном диапазоне, можно ли считать разницу в средних равной нулю, или мне стоит исключить их из выборок?
В данном случае у вас, по сути, отсутствуют данные. Как вы можете с этим справиться, будет зависеть от модели, которую вы используете, и её устойчивости к отсутствующим данным. Если модель может игнорировать значения $\mu = 0, \sigma = 0$, то попробуйте. В противном случае, возможно, вам стоит их исключить, как вы и предлагаете, или, возможно, даже восстановить их предыдущими известными значениями. Если вы, например, используете что-то вроде модели ARIMA, то она отслеживает скользящее среднее. В этом случае использование нулевых значений окажет нежелательное влияние (предполагая, что нули в целом не распространены).
Я не совсем понимаю, что вы спрашиваете в вашем первом вопросе. Что вы уже попробовали? У вас есть какие-то результаты?
Ответ или решение
Ваша задача действительно интересна и требует тщательного подхода к выбору статистических методов. Давайте подробно рассмотрим оба ваших вопроса.
1. Выбор теста: независимый t-тест или тест парных выборок?
В вашем случае вы планируете провести независимый выборочный t-тест, используя разницу в средних значениях настроения до и после события для каждой группы (g1 и g2). Однако, поскольку вы использовали метод ближайшего соседа для сопоставления пользователей, важно помнить, что сопоставленные пользователи в каждой группе все же не являются независимыми выборками. В идеале для сопоставленных данных лучше использовать тест на основе парных выборок, который поможет учесть зависимость между парами наблюдений.
Тем не менее, если вы все же решите использовать независимый t-тест, убедитесь, что вы выполняете все необходимые предпосылки (нормальность распределения и однородность дисперсий). Если данные не соответствуют этим предпосылкам, может быть полезно рассмотреть непараметрические альтернативы, такие как тест Манна-Уитни.
2. Обработка пользователей без твитов в указанный период
Отсутствие данных о твитах у некоторых пользователей в вашем исследовании создает проблему пропусков. Присваивание разницы в средних значениях нуля тем пользователям, которые не публиковали твиты, может привести к искажениям в ваших результатах, так как это может исказить истинные изменения в настроении, которые вы пытаетесь исследовать. Вместо этого:
-
Исключите пользователей: Вы можете исключить тех пользователей, у которых нет данных, чтобы провести анализ только с теми, у кого есть как минимум одно наблюдение до и после события. Это наиболее безопасный подход.
-
Импутация значений: Если вы хотите сохранить больше данных, можно рассмотреть возможность импутации значений. Например, вы можете использовать методы, такие как среднее или медиана по группе, чтобы заполнить отсутствующие значения. Однако это создаст дополнительные допущения и может повлиять на ваши выводы.
Рекомендации
-
Используйте тест парных выборок: Если возможно, проведите анализ с использованием теста для парных выборок, чтобы учесть зависимость между сопоставленными пользователями.
-
Обработайте пропуски: Лучше исключить пользователей без данных в указанный период, чем присваивать им нулевые значения, так как это может ухудшить достоверность результатов вашего анализа.
-
Проверка предпосылок: Убедитесь, что ваши данные соответствуют необходимым предпосылкам для выбранного вами теста.
Таким образом, следуя этим рекомендациям, вы сможете провести более корректный и надежный статистический анализ изменения настроений в твитах между двумя группами пользователей. Успехов в вашем исследовании!