Вопрос или проблема
У меня есть данные о просмотре видео (длительность сессии, количество видео и т.д.), а также информация о том, нажал ли пользователь кнопку “нравится”. Мы можем использовать кнопку “нравится” как подтверждение того, что у пользователя был положительный опыт просмотра, однако только 0,1% пользователей нажимает на эту кнопку.
Я хотел бы найти способ выявить пользователей, у которых данные схожи с теми, кто поставил “нравится” видео, без явного нажатия этой кнопки.
Я думал о том, чтобы использовать переменную “нравится” в качестве ответной переменной в задаче бинарной классификации, однако не наличие “нравится” не означает отрицательный опыт.
Я также подумал о том, чтобы рассматривать это как задачу без учителя, где я проверю, попадают ли сессии с “нравится” естественным образом в определенный кластер.
Редактировать: Я не уточнил, но сервис похож на Youtube, где мы пытаемся определить, был ли у пользователя положительный опыт просмотра после нажатия на видео. В настоящее время нет рекомендательной системы, и это первая часть в ее создании.
Редактировать: После прочтения ответов я склоняюсь к тому, чтобы рассматривать эту задачу как задачу неконтролируемого обучения, а не контролируемого.
Есть ли мысли о том, как подойти к этой проблеме?
Спасибо
Это не решение в области Data Science, но разве тот факт, что пользователь вообще посмотрел видео (потратил время на поиск и загрузку видео, а затем начал просмотр), не говорит о том, что у пользователя есть какой-то интерес к этому видео по сравнению с теми, кто никогда не взаимодействовал с видео? Я бы рассмотрел факт существования входа как положительный ответ, отсутствие “лайка” как нейтральный ответ, а (возможно?) отсутствие просмотра как отрицательный ответ. Конечно, это сильно зависит от источника и предположений о ваших данных.
Тем не менее, я согласен с тем, что кластеризация видео с лайками — это хорошая отправная точка в этой ситуации, и это определенно было бы моим первым инстинктом.
Поставить “лайк” видео — это не единственный сигнал, который говорит о том, что зритель хотел бы увидеть больше видео такого рода.
Рассматривайте лайк просто как еще одну функцию вашего набора данных. Возможно, дайте ему больше веса. Но есть и другие важные функции. Это может быть — количество времени, в течение которого пользователь смотрел видео, доля от общего времени просмотра, какое видео было просмотрено перед этим, какое было просмотрено после, текст в субтитрах видео, переведенный в числовые векторы, текст в заголовке и описании видео и многое другое.
Просмотры также могут быть связаны с заголовками и описаниями, так как они четко передают содержание видео. Если 7 из 10 человек посмотрели видео о законах об оружии после просмотра видео о массовых расстрелах, вы знаете, что рекомендовать.
Ответ или решение
Предсказание Позитивного/Негативного Опыта: Подходы и Решения
Вопрос предсказания позитивного или негативного опыта пользователей на основе данных о просмотре видео является сложной задачей, особенно когда доступно лишь незначительное количество меток (в данном случае нажатий кнопки "лайк"). Однако, с учетом характера вашего сервиса, аналогичного YouTube, и наличия специфических данных, можно рассмотреть несколько методов подхода к этой проблеме.
1. Понимание Данных
Прежде всего, важно осознать, что нажатие на кнопку "лайк" может служить индикатором положительного опыта, но оно не является единственным критерием. Данные о продолжительности сессии, количестве просмотренных видео и других параметрах также могут предоставлять ценную информацию о взаимодействии пользователя с контентом. Следовательно, даже отсутствие положительной метки (лайка) не означает автоматически негативного опыта.
2. Использование Неподконтрольного Обучения (Unsupervised Learning)
Рассмотрение задачи как задачи неподконтрольного обучения является разумным подходом. Один из возможных методов — кластеризация. Вы можете выделить кластеры видео и пользователей, которые поставили лайки, и определить их характерные особенности. Это позволит вам исследовать, зависят ли лайки от определенных факторов, таких как:
- Временные характеристики просмотра (длительность просмотра, доля просмотра).
- Порядок, в котором пользователи смотрят видео.
- Затекстовые данные видео, включая заголовки и описания.
3. Обогащение Данных
Помимо статуса лайка, важно рассмотреть использование дополнительных признаков, которыми вы располагаете. Например, в дальнейшем вы можете анализировать:
- Длительность, на которую пользователи смотрят видео.
- Взаимосвязи между видео, которые были просмотрены до и после (Sequential Behavior).
- Содержание видео, включая метаданные, такие как заголовки и описания, чтобы понять, какие темы вызывают интерес у зрителей.
4. Моделирование Позитивного Опыта
Вместо того чтобы рассматривать позицию "лайк" как единственную метку, вы можете попробовать создать комбинированную метрику, учитывающую различные данные о взаимодействии. Это может включать:
- Лайки (как бонусный фактор).
- Длительность просмотра в сравнении с общим временем.
- Поведение пользователя (например, количество видео, просмотренных подряд).
5. Дополнительные Методы Анализа
Помимо кластеризации, вы можете применить другие методы неподконтрольного обучения, такие как PCA (метод главных компонент), чтобы выявить скрытые зависимости в данных, или использовать алгоритмы создания рекомендаций, основанные на коллаборативной фильтрации.
Заключение
Таким образом, предсказание позитивного или негативного опыта пользователя является многогранной задачей, требующей комплексного подхода. Рассмотрение разных методов анализа и моделирования, использование как контрольных, так и неподконтрольных методов обучения поможет вам создать систему рекомендаций, способную досконально анализировать поведение пользователя и предлагать наиболее релевантный контент. Систематический и многогранный подход окажет влияние на то, как вы будете оценивать пользовательский опыт и разрабатывать эффективные механизмы рекомендаций для вашего сервиса.
Такой подход обеспечит вам конкурентное преимущество на рынке, улучшая взаимодействие пользователей с вашим контентом.