Вопрос или проблема
Мой исследовательский вопрос заключается в изучении влияния «получения внимания» от других участников в онлайн-сообществе на «устойчивое участие» на веб-сайте.
Я решил измерить «устойчивое участие» каждого пользователя, вычислив среднее время между его публикациями. Я рассчитал это следующим образом:
Я измерил «внимание», подсчитывая общее количество комментариев, которые каждый пользователь получил для всех опубликованных им материалов. Я также хочу учитывать общее количество голосов и общее количество просмотров. Я не уверен, стоит ли добавлять их в модель в качестве независимых переменных?
Моя проблема связана с зависимой переменной:
поскольку некоторые люди участвуют всего два раза в два последовательных дня, и среднее время между днями публикации составляет 1. А некоторые люди участвуют 100 раз, и их среднее время между днями публикации также равно 1. Но очевидно, что вторая группа, которая участвовала 100 раз, имела устойчивое участие, а не первая группа.
Поэтому мне также нужно учитывать количество публикаций в модели! Я не знаю, есть ли способ учитывать это? как я могу решить эту проблему?
Мне следует сгруппировать пользователей и провести анализ данных отдельно для них. Например, пользователей, которые участвовали менее 10 раз в одной группе! пользователей с 10–20 участиями в другой группе и т.д.
Буду благодарен, если кто-нибудь сможет помочь мне! Срок сдачи моей статьи совсем близок, и мне нужны некоторые предварительные результаты.
Одним из способов, с помощью которых можно справиться с переменной «участие», является включение начала и конца вашего временного окна данных. Предположим, что ваши данные охватывают период с $start=$ 1/1/2016 до $end=$ 1/1/2017. Вместо того чтобы только рассчитывать разницу между второй и первой публикацией, вы бы рассчитали разницу между первой публикацией и 1/1/2016, а затем разницу между второй и первой публикацией. (Если кто-то присоединился к платформе после 1/1/2016, то вы возьмете минимум из даты присоединения и 1/1/2016). И вы также рассчитаете разницу между 1/1/2017 и последней публикацией.
Таким образом, если у кого-то было только две публикации $p_1$ и $p_2$, вы получите разницу $(p_1-start, p_2-p_1, end-p_2)$. Разницы $p_1-start$ и $end-p_2$ будут больше, чем разницы $p_1-start$ и $end-p_n$ для кого-то с $n>>2$ публикациями.
Я бы сегментировал пользователей на сайте по их общей мере активности до момента теста и обучил модель, используя эти сегменты как категориальную переменную (или обучил бы отдельную модель для каждого сегмента).
Мои мысли таковы, что в случае с двумя пользователями:
а) очень активный пользователь, который находился в долгом отпуске.
б) новый пользователь, у которого было одно действие (только в день регистрации)
Могут иметь одинаковую метрику устойчивого участия, если она измеряется как функция времени, прошедшего с последнего действия.
Но мы ожидаем, что сообщество будет реагировать на их действия по-разному.
Модель может выглядеть как:
внимание = M(тип сегмента, время с последней активности).
тип сегмента = G(сигналы активности до настоящего момента)
Где сигнал активности до настоящего момента может состоять из:
– общее количество действий
– время с первого действия
– среднее время между действиями
M может быть простым регрессором.
G может быть супервизорным (если у вас есть предварительное представление о том, какие сегменты у вас есть) или бессупервизорным с использованием какого-либо алгоритма кластеризации.
С точки зрения статистики, похоже, у вас есть пуассоновский процесс, где события — это публикации пользователей. Так что вы можете представить свою зависимую переменную как количество событий за единицу времени (скажем, количество публикаций в неделю) и настроить пуассоновскую регрессию или регрессию с отрицательной биномиальной распределением. Для независимой переменной вы можете попробовать количество комментариев, полученных за предыдущую единицу времени, то есть вы можете увидеть, насколько хорошо количество комментариев, полученных на этой неделе, предсказывает количество публикаций на следующей неделе.
Заметьте, что, вероятно, будут наблюдаться тенденции во времени (например, новый пользователь сначала делает немного публикаций, но постепенно становится регулярным пользователем) и автокорреляция, особенно если ваш временной масштаб слишком мал. Например, в ваших примерных данных в большинстве дней 0 публикаций, так что автокорреляция будет высокой, если ваши единицы — дни или меньше. Так что рассмотрите возможность использования временных рядов или выбора временного масштаба, достаточно большого, чтобы получить низкую автокорреляцию.
Одним из вариантов является моделирование целевой переменной «устойчивое участие» как индекса. Индекс — это составная мера, которая агрегирует несколько индикаторов. Примерами индексов являются индексные фонды, которые агрегируют множество акций, и валовой внутренний продукт (ВВП), который оценивает общую рыночную стоимость страны.
В вашем примере вы бы создали отдельную модель, которая оценивает индекс «устойчивого участия». Эта модель может быть набором вручную созданных правил или может использовать машинное обучение.
Преимущество создания индекса заключается в получении единого, непрерывного числового значения, которое затем можно использовать как целевое в регрессии.
.
Ответ или решение
Для создания точной и эффективной модели регрессии в вашем случае, важно тщательно проанализировать различные аспекты проблемы. Ваш исследовательский вопрос сосредоточен на влиянии "получения внимания" от других участников онлайн-сообщества на "устойчивое участие" на платформе. Это предполагает множество факторов, которые следует учитывать при создании модели. Разберёмся подробнее, как подойти к этой задаче.
Формулировка проблемы
Зависимая переменная
Вашей основной зависимой переменной является "устойчивое участие", которое вы измеряете средним временным интервалом между действиями пользователя. Однако вы отметили проблему с такой метрикой: пользователи с разной активностью могут иметь одинаковую среднюю разницу, несмотря на разное количество действий. Решение заключается в добавлении количества публикаций как одного из факторов. Можно рассмотреть модель, в которой "устойчивое участие" представлено не только временными интервалами, но и частотой публикаций в определённый период.
Независимые переменные
Для измерения "внимания" у вас есть три основные метрики: количество полученных комментариев, количество голосов и просмотров. Эти метрики могут выступать в качестве независимых переменных. Кроме того, важно учитывать другие параметры, такие как активность пользователя в прошлом (например, общее количество действий и период действия на платформе).
Выбор модели
Поассоновская или негативная биномиальная регрессия
Данные о публикациях могут быть представлены как события в единицу времени, что хорошо согласуется с Поассоновским процессом. Для дискретных счетчиков событий, таких как количество публикаций в неделю, может быть применима Поассоновская регрессия или её расширение – негативная биномиальная регрессия, если есть сверхдисперсия (variance greater than mean).
Тайм-сериесные методы
Если ваши данные имеют временные зависимости и автокорреляцию, рассмотрите использование моделей временных рядов, таких как ARIMA. Эти модели могут помочь учесть временные тенденции и колебания в данных.
Индексный подход
Вы также можете создать составной индекс "устойчивого участия", объединяющий различные метрики активности и временные интервалы. Такой индекс может служить зависимой переменной в регрессионной модели и предоставлять более глубинное понимание того, что составляет устойчивое участие.
Рекомендации по сегментации и кластеризации
-
Сегментация пользователей: Разделение пользователей на сегменты по активности может улучшить качество модели. Например, можете использовать кластеризацию (например, K-Means) для разделения пользователей на группы с разной активностью и обучать отдельные модели для каждой группы.
-
Группировка по времени начала активности: Учитывайте не только временные интервалы между действиями, но и общий период активности каждого пользователя, принимая во внимание как первый, так и последний день активности.
Заключение
Полноценный анализ и правильная формуляция задачи являются критически важными для выбора подходящей модели регрессии. Учтите все аспекты и дополнительные факторы, чтобы построить наиболее точную модель, которая поможет вам получить значимые выводы из ваших данных.
Использование разных методов и тщательный подход помогут вам в оптимизации исследований, особенно в условиях сжатых сроков по сдаче работы.