Как реорганизовать мой набор данных для улучшения интерпретируемости без потери производительности?

Question 1

Что я делаю:

Я предсказываю рейтинги продуктов с использованием бустинговых деревьев (XGBoost) с набором данных в следующем формате:

Что я хочу сделать:

Я хочу использовать SHAP TreeExplainer, чтобы интерпретировать каждое предсказание моей модели в терминах атрибутов продукта и ID пользователей.

Что я получаю:

Моя модель делает все выводы на основе названий продуктов и ID пользователей, вместо атрибутов продуктов и ID пользователей.

Что я пробовал:

Я обнаружил, что каждое название продукта имеет уникальную комбинацию атрибутов, т.е. зная атрибуты, можно найти его название. Поэтому моя идея заключалась в том, чтобы удалить столбец product_name, оставив только атрибуты.

Мое предположение было в том, что переструктурирование набора данных таким образом приведет к интерпретируемости, которую я хотел, без потерь в производительности (так как название продукта не добавляет никакой новой информации).

Что я получил:

Производительность модели значительно снизилась. Даже с тщательной настройкой гиперпараметров я не смог приблизиться к производительности, которую я имел при использовании также названия продукта.

Что я думаю, возможно, происходит:

Мой набор данных слишком мал для обучения модели на атрибутах продуктов (10 тысяч образцов, 60 атрибутов).

или

Возможно, некоторые атрибуты добавляют смещение и нарушают способность модели обобщать, что приводит к переобучению.

Я немного скептичен насчет пункта 2, так как моя потеря на обучении также возросла, когда я удалил название продукта.

Мой вопрос:

Итак, как я могу переструктурировать мой набор данных? У кого-нибудь есть предположения, почему моя модель не может достичь той же производительности без использования названия продукта? Любые идеи или подсказки, что я могу попробовать?

Question 2

Что может происходить, так это то, что ваши предикторы атрибутов слабы, они шумные. Значимые деревья решений не могут быть построены из признаков атрибутов продуктов с помощью XGB.

Когда вы добавляете имя в качестве предиктора, XGB находит сигнал по отношению к вашей целевой переменной — рейтингу, и поэтому вы получаете лучший результат. Таким образом, ваша модель, использующая имя и атрибуты, может показывать лучшие результаты, чем модель, использующая только атрибуты, по этой причине.

Если вы из опыта в данной области знаете, что атрибуты продуктов очень слабо связаны с рейтингом, тогда можете заключить, что данный набор атрибутов не поможет вам делать точные предсказания. Или вместо того, чтобы полагаться на знания в данной области, можете использовать корреляцию или соответствующие статистические тесты, чтобы понять связь атрибутов с рейтингом и, если выяснится, что связь отсутствует или очень слаба, можно сделать вывод, что модель невозможна.

Таким образом, если возможно, добавьте более релевантные признаки, если хотите создать достаточно хорошую модель.

С уважением, Вик

Question 3

Что касается вашего первого вопроса, нет, ваш набор данных не слишком мал, чтобы давать плохие результаты, хотя добавление большего объема данных, безусловно, поможет. Я работал с наборами данных, меньшими, чем ваш.

Ответ на ваш второй вопрос зависит от того, проводился ли отбор/создание признаков. Обычно лучший вид отбора признаков осуществляется с помощью знаний/опыта в данной области. Статистические методы отбора признаков могут быть точными или нет, поэтому обычно рекомендуется сначала использовать знания в данной области, чтобы исключить признаки. Если производительность не улучшается, только тогда используйте другие методы, хотя и с осторожностью.

Что вы можете сделать, так это удалить характеристику идентификатора продукта, так как идентификаторы обычно не вносят существенного вклада в модель, кроме увеличения размерности. (Я не знаю, в какой области вы работаете, но если вы считаете, что идентификаторы продуктов являются важными и помогают предсказывать цель, то, разумеется, оставьте эту характеристику.)

Кроме того, есть много вещей, которые вы можете сделать для улучшения вашей модели, некоторые из которых (сначала создайте базовую модель, где вы не выполняете отбор признаков и настройку гиперпараметров. Это поможет вам получить базовый результат для сравнения):-

1.) Используйте знания в области для создания признаков и посмотрите, можно ли уменьшить размерности, объединив 2 или более числовых признаков в 1.

2.) Используйте знания в области для отбора признаков, и если это не помогает, используйте другие техники отбора признаков.

3.) Настройка гиперпараметров

4.) Попробуйте разные модели

5.) Добавьте больше данных

Одно или несколько из этих действий определенно помогут вам создать лучшую модель.

Помните, что построение модели — это итеративный процесс, и нужно продолжать пробовать разные подходы, чтобы получить наилучшую возможную модель. Не пробуйте пару вещей и не приходите к выводу, что модель не лучшая.

Удачи!

Как реорганизовать мой набор данных для улучшения интерпретируемости без потери производительности?

Вопрос или проблема

Ответ или решение

Как реорганизовать ваш набор данных для интерпретируемости без потери производительности?

Введение

Причины снижения производительности

Рекомендации

1. Улучшение качества данных

2. Извлечение и проектирование новых признаков

3. Расширение набора данных

4. Оценка и оптимизация моделей

Заключение