Работа с пропущенными данными в SVD

Содержание

Вопрос или проблема
Ответ или решение
Метод 1: Заполнение отсутствующих оценок нулями перед нормализацией
Метод 2: Нормализация перед заполнением отсутствующих оценок нулями
Рекомендации

Вопрос или проблема

Я новичок в машинном обучении и пытаюсь применить SVD к набору данных movielens для рекомендаций фильмов. У меня есть матрица “фильм-пользователь”, где строка – это идентификатор пользователя, столбец – идентификатор фильма, а значение – это рейтинг.

Теперь я хотел бы провести нормализацию матрицы “фильм-пользователь” (вычесть среднее значение рейтингов пользователей). Затем передать нормализованную матрицу в svds из Scipy.sparse следующим образом:

from scipy.sparse.linalg import svds
U, sigma, Vt = svds(R_demeaned, k = 50)

Теперь у меня есть 2 метода сделать это:

Метод 1.) Сначала заполнить все отсутствующие рейтинги 0, затем рассчитать среднее значение рейтингов пользователей для нормализации.

Предсказанная датафрейм рейтингов по методу 1 с использованием svd выглядит так:

Метод 2.) Сначала рассчитать среднее значение рейтингов пользователей и провести нормализацию, затем заменить отсутствующие рейтинги на 0.

Предсказанная датафрейм рейтингов по методу 2 с использованием svd выглядит так:

Я хотел бы узнать, какой метод лучше или есть ли другие методы для этого. Насколько я могу наблюдать из метода 2, предсказанные рейтинги для пользователя довольно похожи. Например, пользователь A может получить 4.XX рейтинги для всех фильмов. Тем временем в методе 1 наблюдается большее разнообразие. Я хотел бы узнать, неправильно ли что-то.

Я бы порекомендовал попробовать оба метода, чтобы увидеть, какой из них работает лучше.

Тем не менее, на мой взгляд, сначала нужно заполнить, а затем нормализовать. Представьте, если вы сначала нормализуете, вы можете получить некоторые значения, очень близкие к 0. Поэтому, когда вы заполняете отсутствующие значения 0, вы тем самым говорите, что эти отсутствующие значения имели такое же начальное значение, как те, что были нормализованы до 0, что было бы неверно.

Ответ или решение

Отвечая на ваш вопрос о том, как лучше всего подходить к проблеме отсутствующих данных при применении SVD на наборе данных MovieLens, давайте рассмотрим оба представленных вами метода и их влияние на результаты.

Метод 1: Заполнение отсутствующих оценок нулями перед нормализацией

Этот подход предполагает, что перед нормализацией вы заполняете все отсутствующие значения оценками "0". После этого вы вычисляете среднее значение оценок пользователей для нормализации. Это имеет свои плюсы и минусы.

Плюсы:

Легкость в реализации: достаточно одной операции для заполнения нулями и одной для нормализации.
Может помочь избежать потери информации о пользователях, которые не оценивали много фильмов, поскольку ноли попадают в набор данных и могут быть учтены в матрице.

Минусы:

Нулевая оценка может быть некорректной интерпретацией отсутствующих данных. Это может привести к искажениям, когда SVD рассматривает ноль как реальную оценку.
Использование нуля может занижать важность других более высоких оценок.

Таким образом, предсказанные значения могут показать большее разнообразие, но также могут быть менее точными из-за представления отсутствующих данных как нулевых.

Метод 2: Нормализация перед заполнением отсутствующих оценок нулями

Этот метод заключается в том, что вы сначала вычисляете среднее значение оценок пользователей для нормализации, а затем заменяете отсутствующие значения нулями.