Выбор признаков на агрегированных целевых данных

Question 1

У меня есть вопрос о выборе признаков в наборе данных, где целевая переменная агрегируется по сумме различных данных. Я хочу предсказать количество продаж в зависимости от различных признаков, таких как:

неделя
цена за единицу
страна магазина
город магазина
2-3 других категориальных метаданных
другие признаки

Я понимаю, что эти данные следует интерпретировать как временной ряд, но из-за нехватки доступных исторических данных ни одна модель не может конкурировать с наивным подходом.

Проблема, с которой я сталкиваюсь, заключается в том, что целевая переменная – это сумма сгруппированных признаков, таких как месяц, цена, страна и город. Если я добавляю или удаляю один из сгруппированных признаков, я получаю идентичные точки данных, и набор данных становится неоднородным, поэтому мне нужно выполнить группировку (сумму), чтобы восстановить согласованность. Эта операция изменит целевую переменную и количество данных. У меня нет идей, как валидировать регрессионные модели, обученные на разных поднаборах признаков, потому что исходный набор данных не равен. Я знаю, что есть и другие техники выбора признаков, такие как фильтрация или встроенные методы, которые предлагают обходные пути, но мне бы хотелось узнать, существуют ли методы для решения этой проблемы.

Пример:

    неделя  цена_за_единицу страна_магазина  продажи
0      1             3.0            C1     30
1      1             3.0            C2     32
2      1             4.0            C1     23
3      2             3.5            C1     19
4      2             3.5            C2     27
5      2             6.5            C1     35
6      3             2.0            C1     17
7      3             3.0            C1     15
8      3             4.0            C2      7
9      4             2.0            C1     19
10     4             5.0            C1     41
11     4             5.0            C2     21

После удаления столбца страна_магазина:

    неделя  цена_за_единицу  продажи
0      1             3.0     30
1      1             4.0     23
2      1             3.0     32
3      2             6.5     35
4      2             3.5     19
5      2             3.5     27
6      3             2.0     17
7      3             3.0     15
8      3             4.0      7
9      4             5.0     41
10     4             2.0     19
11     4             5.0     21

Теперь есть дублирующиеся точки данных, и столбец продаж неверен, потому что мне нужна сумма. Поэтому после агрегирования я получаю:

   неделя  цена_за_единицу  продажи
0     1             3.0     62
1     1             4.0     23
2     2             3.5     46
3     2             6.5     35
4     3             2.0     17
5     3             3.0     15
6     3             4.0      7
7     4             2.0     19
8     4             5.0     62

Предположим, я хочу провести выбор вперед или назад с линейной регрессией. На каждом шаге будет добавляться или удаляться столбец. Таким образом, количество строк зависит от выбранного признака. Я не могу придумать метрику для сравнения этих регрессионных моделей.

Question 2

Мне кажется, что существует некоторая путаница между этими двумя этапами:

Определение проблемы и соответствующая подготовка данных
Применение методов машинного обучения к данным (выбор признаков и т.д.)

Эти два этапа должны быть различными: любая агрегация должна проходить на этапе 1, чтобы в конце этапа 1 набор данных был фиксирован.

В вашем примере на этапе 1 вы решили предсказать общий объем продаж по магазинам с учетом недели и цены за единицу. Обратите внимание, что вы также можете выбрать другие варианты:

средний объем продаж по магазину как целевой показатель
сохранять одну строку для каждого магазина: в зависимости от цели иногда нормально иметь несоответствия в данных, регрессия может с ними справиться.
вы можете решить, что экземпляр для магазина охватывает N прошлых недель и предоставить продажи за эти недели, цель – следующая неделя (возможно, это также поможет).
…

И, конечно, вы можете делать это столько раз, сколько необходимо для изучения различных проблем, каждый раз получая другую версию данных, которая представляет собой конкретную задачу. Только после того, как вы формально определили свою проблему и подготовили данные, начинается часть, связанная с машинным обучением. Например, пошаговая регрессия (или любая другая техника) не может работать, если данные модифицируются/агрегируются в ходе выполнения этапов.

Выбор признаков на агрегированных целевых данных

Вопрос или проблема

Ответ или решение

Шаг 1: Определение задачи и подготовка данных

Шаг 2: Применение методов машинного обучения

Заключение