Какое разумное распределение можно использовать для моделирования просмотров со временем для… этого вопроса?

Вопрос или проблема

Извините за самоцитирующийся заголовок 😉

Мне было бы любопытно узнать, какая кривая могла бы использоваться для моделирования – в масштабе (скажем) недель* – “цикла вовлеченности” одной новостной страницы онлайн-газеты с точки зрения просмотров веб-страниц. Тот же модель можно было бы применить и к просмотрам вопросов на Stack Exchange!

Что я интуитивно моделировал бы, так это начальный всплеск посещений из-за того, что новая, свежая страница очень заметна, так как она указана на главной странице (что также вызывает повторные публикации в социальных сетях), а затем долгосрочное поведение посещений, например, благодаря тому, что на страницу переходят по ссылкам с других веб-страниц или через поисковые системы.

Одним из возможных способов может быть сумма двух процессов Пуассона (первый отключается через некоторое типичное характерное время).

Еще одной возможностью было бы использование чего-то вроде экспоненциального распада, чтобы зафиксировать убывание интереса со временем (с “свежестью” контента угасает и общественный интерес).

Кто-нибудь знает о лучших альтернативах или литературе на эту тему?

*Я бы не моделировал суточную или недельную сезонность.

Один из способов посмотреть на эту проблему, изучая литературу, заключается в том, чтобы рассматривать ее как процесс Хоукса, как, например, в работе Ризоиу и др., https://arxiv.org/abs/1602.06033.

В статье также упоминается предыдущая работа, использующая другие подходы к моделированию: Набор подходов описывает динамику популярности […] как обладающую степенной законной формой от либо экзогенного шока, либо эндогенной релаксации, комбинацию степенного закона и экспоненциального распада, множественные степенные распады с периодичностью или коллекцию пиков рецидива.

Первым шагом было бы получить данные. Stack Overflow позволяет делать много запросов по здесь, но я не знаю, сможете ли вы получить много временных рядов/являются ли эти временные ряды достаточно детализированными.

Вторым шагом было бы построить модель (посмотрите ответ Давиде Фиокко). Но я боюсь, что вам придется сделать некоторые предположения, такие как аналогия динамики просмотров вашего поста с другим средним постом Data.SE, когда ваш вопрос на самом деле является интересным мета-вопросом.

Ответ или решение

Моделирование вовлеченности пользователей на веб-страницах новостных сайтов и платформах, таких как Stack Exchange, является важной задачей для анализа поведения пользователей и оптимизации контента. В этом контексте разумным подходом было бы использовать кривую, способную отразить динамику просмотров за определенный период времени. В данной статье мы рассмотрим несколько распределений и моделей, которые могут эффективно описать это поведение.

1. Начальное Увеличение Просмотров

Первый этап жизненного цикла страницы обычно характеризуется резким увеличением числа просмотров. Это может быть вызвано появлением нового контента на главной странице, а также активными расшариваниями в социальных сетях. Для моделирования этого начального всплеска можно использовать распределение Пуассона, которое эффективно описывает количество событий (в данном случае просмотров) за фиксированный промежуток времени.

2. Долгосрочное Поведение

После первоначального всплеска наблюдается тенденция снижения интереса к контенту, что может быть описано с помощью экспоненциального затухания. Это происходит из-за естественного ухудшения "свежести" контента и снижения общественного интереса. Экспоненциальная функция будет эффективно отражать данный процесс:

[
V(t) = V_0 \cdot e^{-\lambda t}
]

где (V_0) – количество просмотров на момент публикации, (\lambda) – коэффициент затухания, а (t) – время.

3. Моделирование с Использованием Процессов Хоукса

Как упоминалось в обсуждении, модель Хоукса также может быть подходящей. Этот процесс позволяет учитывать растущую популярность по мере появления новых просмотров, что создает эффект "вирусности". Литература, такая как работа Ризоиу и др., указывает на то, что модели Хоукса могут хорошо захватывать как экзогенные шоки (например, удаленные ссылки и акции в социальных сетях), так и эндогенные одинарные случаи (взаимодействия, вызванные предыдущими просмотрами).

4. Параметры Модели

Каждая из вышеперечисленных моделей потребует эмпирической настройки значений, таких как:

  • Коэффициент затухания ((\lambda)): для экспоненциального затухания, который определяет скорость снижения интереса к контенту.
  • Интенсивность процесса ((\mu)): в случае моделей Хоукса, что описывает среднее число событий (просмотров) за единицу времени.

5. Итоговые Рекомендации и Данные

Первый шаг в этом процессе — сбор данных. Используйте API Stack Exchange для получения времени и количества просмотров вопросов, чтобы построить временные ряды с необходимой высокой гранулярностью. Начав анализировать данные, можно применять выбранную модель для создания прогноза на основе исторических данных.

Подводя итог, для моделирования жизненного цикла веб-страницы можно использовать комбинацию различных подходов, таких как распределение Пуассона для начального всплеска, экспоненциальное затухание для долгосрочного поведения, а также модели Хоукса, которые могут захватывать как экзогенные, так и эндогенные факторы. Эти методы в совокупности создадут комплексное представление о динамике просмотров, что будет крайне полезно для оптимизации контента и стратегии вовлечения пользователей.

Оцените материал
Добавить комментарий

Капча загружается...