Лучший подход к A/B тестированию двух разных систем рекомендаций

Question 1

У меня есть две рекомендательные системы для музыкальных предпочтений, которые составляют список рекомендаций для конкретного пользователя на основе песен, которые он сохранил в своей библиотеке. Затем пользователь оценивает, насколько хороша каждая рекомендация по шкале от 1 до 6. Я буду оценивать эффективность рекомендательных систем на основе средней оценки, данной песням, рекомендованным системой A и системой B.

Обозначим A как песню, рекомендованную системой A, а B как песню, рекомендованную системой B. Для конкретного пользователя стоит ли рекомендовать (AAAAAA или BBBBBB) или же (ABABABAB)? Я реализовал первым вариантом (AAAAAA или BBBBBB). Таким образом, в текущей системе каждому респонденту будет случайным образом назначена A или B, и он будет получать рекомендации только от этой системы. Является ли это правильным подходом или же рекомендация только одной системы каждому респонденту предвзято относится к тому, что могла бы предложить другая система?

Предположим, что B гораздо лучше A. Если мы будем рекомендовать одну и ту же систему каждому пользователю, и пользователь прослушает песни, которые все относятся к системе A, он никогда не услышит систему B, и оценки A, вероятно, были бы другими (ниже), если бы он также послушал лучшую систему. Является ли подход ABABAB наилучшим? Каков лучший метод для оценки производительности каждой системы с минимизацией предвзятости?

Спасибо.

Question 2

Если пользователь оценивает, насколько хороша каждая рекомендация, то подход ABABAB является наилучшим. Может возникнуть ситуация, когда система A со временем становится лучше чем B, тогда наличие двух систем теряет смысл.

Question 3

Это кажется хорошим примером для применения байесовского бандита с использованием метода Томпсона.

Это позволит вам начать с 50-50 рекомендаций – что-то вроде:

ABABABAB

но в конечном итоге прийти к AAAAABAAAAAB (в основном A) или BBBBBABBBBB (в основном B) в зависимости от того, какая из систем больше нравится пользователю.

Вы также можете получить ABABAABABABAB (смешанный вариант), если пользователи любят обе системы.

Данный подход предполагает, что у вас есть доступ к обратной связи или оценкам от пользователей в реальном времени и возможность действовать на основе этой информации.

Почитайте об этом – это довольно просто для реализации.

Question 4

В A/B тесте вы хотите представить варианты, которые соответствуют тому, что вы хотите внедрить в продукцию. Если вы можете развернуть либо A, либо B, то вам следует предложить пользователям либо AAAAAA, либо BBBBBB, так как они представляют собой такие альтернативы.

Представление ABABAB не является представительным для развертывания только A или только B.

Чтобы избежать предвзятости, вызванной тем, что некоторые пользователи в целом ставят более высокие оценки, чем другие, вы используете случайное распределение.

Лучший подход к A/B тестированию двух разных систем рекомендаций

Вопрос или проблема

Ответ или решение

1. Определение цели

2. Оценка рекомендаций пользователями

3. Снижение предвзятости

4. Итоговое решение