Предсказание положительного/отрицательного опыта с очень немногими метками и метками только одного класса

Вопрос или проблема

У меня есть данные о просмотре видео (длительность сессии, количество видео и т.д.), а также информация о том, нажал ли пользователь кнопку “нравится”. Мы можем использовать кнопку “нравится” как подтверждение того, что у пользователя был положительный опыт просмотра, однако только 0,1% пользователей нажимает на эту кнопку.
Я хотел бы найти способ выявить пользователей, у которых данные схожи с теми, кто поставил “нравится” видео, без явного нажатия этой кнопки.

Я думал о том, чтобы использовать переменную “нравится” в качестве ответной переменной в задаче бинарной классификации, однако не наличие “нравится” не означает отрицательный опыт.

Я также подумал о том, чтобы рассматривать это как задачу без учителя, где я проверю, попадают ли сессии с “нравится” естественным образом в определенный кластер.

Редактировать: Я не уточнил, но сервис похож на Youtube, где мы пытаемся определить, был ли у пользователя положительный опыт просмотра после нажатия на видео. В настоящее время нет рекомендательной системы, и это первая часть в ее создании.

Редактировать: После прочтения ответов я склоняюсь к тому, чтобы рассматривать эту задачу как задачу неконтролируемого обучения, а не контролируемого.

Есть ли мысли о том, как подойти к этой проблеме?
Спасибо

Это не решение в области Data Science, но разве тот факт, что пользователь вообще посмотрел видео (потратил время на поиск и загрузку видео, а затем начал просмотр), не говорит о том, что у пользователя есть какой-то интерес к этому видео по сравнению с теми, кто никогда не взаимодействовал с видео? Я бы рассмотрел факт существования входа как положительный ответ, отсутствие “лайка” как нейтральный ответ, а (возможно?) отсутствие просмотра как отрицательный ответ. Конечно, это сильно зависит от источника и предположений о ваших данных.

Тем не менее, я согласен с тем, что кластеризация видео с лайками — это хорошая отправная точка в этой ситуации, и это определенно было бы моим первым инстинктом.

Поставить “лайк” видео — это не единственный сигнал, который говорит о том, что зритель хотел бы увидеть больше видео такого рода.

Рассматривайте лайк просто как еще одну функцию вашего набора данных. Возможно, дайте ему больше веса. Но есть и другие важные функции. Это может быть — количество времени, в течение которого пользователь смотрел видео, доля от общего времени просмотра, какое видео было просмотрено перед этим, какое было просмотрено после, текст в субтитрах видео, переведенный в числовые векторы, текст в заголовке и описании видео и многое другое.

Просмотры также могут быть связаны с заголовками и описаниями, так как они четко передают содержание видео. Если 7 из 10 человек посмотрели видео о законах об оружии после просмотра видео о массовых расстрелах, вы знаете, что рекомендовать.

Ответ или решение

Предсказание Позитивного/Негативного Опыта: Подходы и Решения

Вопрос предсказания позитивного или негативного опыта пользователей на основе данных о просмотре видео является сложной задачей, особенно когда доступно лишь незначительное количество меток (в данном случае нажатий кнопки "лайк"). Однако, с учетом характера вашего сервиса, аналогичного YouTube, и наличия специфических данных, можно рассмотреть несколько методов подхода к этой проблеме.

1. Понимание Данных

Прежде всего, важно осознать, что нажатие на кнопку "лайк" может служить индикатором положительного опыта, но оно не является единственным критерием. Данные о продолжительности сессии, количестве просмотренных видео и других параметрах также могут предоставлять ценную информацию о взаимодействии пользователя с контентом. Следовательно, даже отсутствие положительной метки (лайка) не означает автоматически негативного опыта.

2. Использование Неподконтрольного Обучения (Unsupervised Learning)

Рассмотрение задачи как задачи неподконтрольного обучения является разумным подходом. Один из возможных методов — кластеризация. Вы можете выделить кластеры видео и пользователей, которые поставили лайки, и определить их характерные особенности. Это позволит вам исследовать, зависят ли лайки от определенных факторов, таких как:

  • Временные характеристики просмотра (длительность просмотра, доля просмотра).
  • Порядок, в котором пользователи смотрят видео.
  • Затекстовые данные видео, включая заголовки и описания.

3. Обогащение Данных

Помимо статуса лайка, важно рассмотреть использование дополнительных признаков, которыми вы располагаете. Например, в дальнейшем вы можете анализировать:

  • Длительность, на которую пользователи смотрят видео.
  • Взаимосвязи между видео, которые были просмотрены до и после (Sequential Behavior).
  • Содержание видео, включая метаданные, такие как заголовки и описания, чтобы понять, какие темы вызывают интерес у зрителей.

4. Моделирование Позитивного Опыта

Вместо того чтобы рассматривать позицию "лайк" как единственную метку, вы можете попробовать создать комбинированную метрику, учитывающую различные данные о взаимодействии. Это может включать:

  • Лайки (как бонусный фактор).
  • Длительность просмотра в сравнении с общим временем.
  • Поведение пользователя (например, количество видео, просмотренных подряд).

5. Дополнительные Методы Анализа

Помимо кластеризации, вы можете применить другие методы неподконтрольного обучения, такие как PCA (метод главных компонент), чтобы выявить скрытые зависимости в данных, или использовать алгоритмы создания рекомендаций, основанные на коллаборативной фильтрации.

Заключение

Таким образом, предсказание позитивного или негативного опыта пользователя является многогранной задачей, требующей комплексного подхода. Рассмотрение разных методов анализа и моделирования, использование как контрольных, так и неподконтрольных методов обучения поможет вам создать систему рекомендаций, способную досконально анализировать поведение пользователя и предлагать наиболее релевантный контент. Систематический и многогранный подход окажет влияние на то, как вы будете оценивать пользовательский опыт и разрабатывать эффективные механизмы рекомендаций для вашего сервиса.

Такой подход обеспечит вам конкурентное преимущество на рынке, улучшая взаимодействие пользователей с вашим контентом.

Оцените материал
Добавить комментарий

Капча загружается...