Предсказание положительного/отрицательного опыта с очень немногими метками и метками только одного класса

Question 1

У меня есть данные о просмотре видео (длительность сессии, количество видео и т.д.), а также информация о том, нажал ли пользователь кнопку “нравится”. Мы можем использовать кнопку “нравится” как подтверждение того, что у пользователя был положительный опыт просмотра, однако только 0,1% пользователей нажимает на эту кнопку.
Я хотел бы найти способ выявить пользователей, у которых данные схожи с теми, кто поставил “нравится” видео, без явного нажатия этой кнопки.

Я думал о том, чтобы использовать переменную “нравится” в качестве ответной переменной в задаче бинарной классификации, однако не наличие “нравится” не означает отрицательный опыт.

Я также подумал о том, чтобы рассматривать это как задачу без учителя, где я проверю, попадают ли сессии с “нравится” естественным образом в определенный кластер.

Редактировать: Я не уточнил, но сервис похож на Youtube, где мы пытаемся определить, был ли у пользователя положительный опыт просмотра после нажатия на видео. В настоящее время нет рекомендательной системы, и это первая часть в ее создании.

Редактировать: После прочтения ответов я склоняюсь к тому, чтобы рассматривать эту задачу как задачу неконтролируемого обучения, а не контролируемого.

Есть ли мысли о том, как подойти к этой проблеме?
Спасибо

Question 2

Это не решение в области Data Science, но разве тот факт, что пользователь вообще посмотрел видео (потратил время на поиск и загрузку видео, а затем начал просмотр), не говорит о том, что у пользователя есть какой-то интерес к этому видео по сравнению с теми, кто никогда не взаимодействовал с видео? Я бы рассмотрел факт существования входа как положительный ответ, отсутствие “лайка” как нейтральный ответ, а (возможно?) отсутствие просмотра как отрицательный ответ. Конечно, это сильно зависит от источника и предположений о ваших данных.

Тем не менее, я согласен с тем, что кластеризация видео с лайками — это хорошая отправная точка в этой ситуации, и это определенно было бы моим первым инстинктом.

Question 3

Поставить “лайк” видео — это не единственный сигнал, который говорит о том, что зритель хотел бы увидеть больше видео такого рода.

Рассматривайте лайк просто как еще одну функцию вашего набора данных. Возможно, дайте ему больше веса. Но есть и другие важные функции. Это может быть — количество времени, в течение которого пользователь смотрел видео, доля от общего времени просмотра, какое видео было просмотрено перед этим, какое было просмотрено после, текст в субтитрах видео, переведенный в числовые векторы, текст в заголовке и описании видео и многое другое.

Просмотры также могут быть связаны с заголовками и описаниями, так как они четко передают содержание видео. Если 7 из 10 человек посмотрели видео о законах об оружии после просмотра видео о массовых расстрелах, вы знаете, что рекомендовать.

Предсказание положительного/отрицательного опыта с очень немногими метками и метками только одного класса

Вопрос или проблема

Ответ или решение

Предсказание Позитивного/Негативного Опыта: Подходы и Решения

1. Понимание Данных

2. Использование Неподконтрольного Обучения (Unsupervised Learning)

3. Обогащение Данных

4. Моделирование Позитивного Опыта

5. Дополнительные Методы Анализа

Заключение