Какую регрессионную модель мне выбрать?

Question 1

Мой исследовательский вопрос заключается в изучении влияния «получения внимания» от других участников в онлайн-сообществе на «устойчивое участие» на веб-сайте.

Я решил измерить «устойчивое участие» каждого пользователя, вычислив среднее время между его публикациями. Я рассчитал это следующим образом:

Я измерил «внимание», подсчитывая общее количество комментариев, которые каждый пользователь получил для всех опубликованных им материалов. Я также хочу учитывать общее количество голосов и общее количество просмотров. Я не уверен, стоит ли добавлять их в модель в качестве независимых переменных?

Моя проблема связана с зависимой переменной:

поскольку некоторые люди участвуют всего два раза в два последовательных дня, и среднее время между днями публикации составляет 1. А некоторые люди участвуют 100 раз, и их среднее время между днями публикации также равно 1. Но очевидно, что вторая группа, которая участвовала 100 раз, имела устойчивое участие, а не первая группа.

Поэтому мне также нужно учитывать количество публикаций в модели! Я не знаю, есть ли способ учитывать это? как я могу решить эту проблему?

Мне следует сгруппировать пользователей и провести анализ данных отдельно для них. Например, пользователей, которые участвовали менее 10 раз в одной группе! пользователей с 10–20 участиями в другой группе и т.д.

Буду благодарен, если кто-нибудь сможет помочь мне! Срок сдачи моей статьи совсем близок, и мне нужны некоторые предварительные результаты.

Question 2

Одним из способов, с помощью которых можно справиться с переменной «участие», является включение начала и конца вашего временного окна данных. Предположим, что ваши данные охватывают период с $start=$ 1/1/2016 до $end=$ 1/1/2017. Вместо того чтобы только рассчитывать разницу между второй и первой публикацией, вы бы рассчитали разницу между первой публикацией и 1/1/2016, а затем разницу между второй и первой публикацией. (Если кто-то присоединился к платформе после 1/1/2016, то вы возьмете минимум из даты присоединения и 1/1/2016). И вы также рассчитаете разницу между 1/1/2017 и последней публикацией.

Таким образом, если у кого-то было только две публикации $p_1$ и $p_2$, вы получите разницу $(p_1-start, p_2-p_1, end-p_2)$. Разницы $p_1-start$ и $end-p_2$ будут больше, чем разницы $p_1-start$ и $end-p_n$ для кого-то с $n>>2$ публикациями.

Question 3

Я бы сегментировал пользователей на сайте по их общей мере активности до момента теста и обучил модель, используя эти сегменты как категориальную переменную (или обучил бы отдельную модель для каждого сегмента).

Мои мысли таковы, что в случае с двумя пользователями:
а) очень активный пользователь, который находился в долгом отпуске.
б) новый пользователь, у которого было одно действие (только в день регистрации)
Могут иметь одинаковую метрику устойчивого участия, если она измеряется как функция времени, прошедшего с последнего действия.
Но мы ожидаем, что сообщество будет реагировать на их действия по-разному.

Модель может выглядеть как:
внимание = M(тип сегмента, время с последней активности).
тип сегмента = G(сигналы активности до настоящего момента)

Где сигнал активности до настоящего момента может состоять из:
– общее количество действий
– время с первого действия
– среднее время между действиями

M может быть простым регрессором.
G может быть супервизорным (если у вас есть предварительное представление о том, какие сегменты у вас есть) или бессупервизорным с использованием какого-либо алгоритма кластеризации.

Question 4

С точки зрения статистики, похоже, у вас есть пуассоновский процесс, где события — это публикации пользователей. Так что вы можете представить свою зависимую переменную как количество событий за единицу времени (скажем, количество публикаций в неделю) и настроить пуассоновскую регрессию или регрессию с отрицательной биномиальной распределением. Для независимой переменной вы можете попробовать количество комментариев, полученных за предыдущую единицу времени, то есть вы можете увидеть, насколько хорошо количество комментариев, полученных на этой неделе, предсказывает количество публикаций на следующей неделе.

Заметьте, что, вероятно, будут наблюдаться тенденции во времени (например, новый пользователь сначала делает немного публикаций, но постепенно становится регулярным пользователем) и автокорреляция, особенно если ваш временной масштаб слишком мал. Например, в ваших примерных данных в большинстве дней 0 публикаций, так что автокорреляция будет высокой, если ваши единицы — дни или меньше. Так что рассмотрите возможность использования временных рядов или выбора временного масштаба, достаточно большого, чтобы получить низкую автокорреляцию.

Question 5

Одним из вариантов является моделирование целевой переменной «устойчивое участие» как индекса. Индекс — это составная мера, которая агрегирует несколько индикаторов. Примерами индексов являются индексные фонды, которые агрегируют множество акций, и валовой внутренний продукт (ВВП), который оценивает общую рыночную стоимость страны.

В вашем примере вы бы создали отдельную модель, которая оценивает индекс «устойчивого участия». Эта модель может быть набором вручную созданных правил или может использовать машинное обучение.

Преимущество создания индекса заключается в получении единого, непрерывного числового значения, которое затем можно использовать как целевое в регрессии.

Какую регрессионную модель мне выбрать?

Вопрос или проблема

Ответ или решение

Формулировка проблемы

Зависимая переменная

Независимые переменные

Выбор модели

Поассоновская или негативная биномиальная регрессия

Тайм-сериесные методы

Индексный подход

Рекомендации по сегментации и кластеризации

Заключение