Ищем возможность заменить отсутствующие значения временного ряда на значения от конкурента, которые коррелируют.

Содержание

Вопрос или проблема
Ответ или решение
Теория
Пример
Применение

Вопрос или проблема

У меня есть набор данных розничного продавца, который включает следующие атрибуты:

Дата, Час, Входы, Выходы.

У меня есть другой набор данных с такими же атрибутами от конкурента, который коррелирует с исходным набором данных на 94% R2. Основной розничный продавец постоянно пропускает утренние часы, и я пытаюсь выяснить, как лучше всего справиться с этим, используя моего высоко коррелированного конкурента, у которого есть данные за эти часы, чтобы заполнить пропущенные часы.

Масштабы их значений не одинаковы, и у меня сейчас возникают трудности с тем, как с этим справиться. Я работал с задачами классификации и задачами прогнозирования регрессии, но редко с временными рядами. Какой лучший план действий для такой проблемы?

Ответ или решение

Замена недостающих значений временных рядов — важная задача в анализе данных, особенно когда компания стремится поддерживать целостность данных для точного прогнозирования и анализа. В данном случае вам предстоит решить, как восполнить отсутствующие утренние часы в наборах данных, касающихся количества входов и выходов в магазине, используя данные от конкурента. Ваша задача осложняется тем, что масштабы значений в ваших наборах данных различаются. Рассмотрим возможные подходы к решению этой задачи.

Теория

Для начала давайте разберем, почему важно корректно восстанавливать недостающие значения в вашем времяном ряду. Неполные данные могут существенно искажать результаты анализа, прогноза продаж или операционных показателей. Когда есть подобное обогащение с использованием данных от конкурента с 94%-й корреляцией, это становится особенно важным, поскольку подобная статистическая взаимосвязь может значительно повысить точность восстановленных значений.

Существует несколько способов восстановления недостающих временных данных:

Линейная интерполяция: использует линейную зависимость между известными точками. Это простой, но не всегда точно подходящий метод.
Использование временных параметров (Time Series Models): такие как ARIMA, SARIMA или модели экспоненциального сглаживания. Они учитывают сезонные и трендовые компоненты.
Статистические методы: такие как регрессия или использование деревьев решений. Особенно полезны, когда у вас есть данные, которые можно рассматривать в контексте множественных переменных.
Импутация на основе конкурентных данных: Этот метод важен в вашем случае, т.к. он основывается на использовании данных, которые демонстрируют высокую корреляцию.

Пример

Предположим, у вас есть временной ряд для "Входы" у вашего ритейлера, который отсутствует с 7 до 9 утра. Данные конкурента в это время доступны и коррелированы с вашими данными на 94%. Это сильная корреляционная связь, которая предполагает, что вы можете с высокой вероятностью предположить значения вашего ритейлера на основе этих данных. Однако, поскольку масштабы различны, нам нужно подойти к этому с осторожностью.

Применение

Нормализация данных: для начала пересчитайте данные от конкурента в единую масштабную основу с вашим ритейлером. Это может быть сделано через стандартизацию (преобразование данных в z-оценки) или нормализацию (приведение значений к диапазону от 0 до 1). Так вы сможете управлять различиями в величинах.
Построение модели регрессии: используйте модели регрессии, например, линейную регрессию или нелинейные поля регрессии для предсказания недостающих значений. Исходите из предположения, что ваши данные наблюдения с параметрами "Энтри" и "Экзит" сильно коррелированы с таковыми у конкурента.
Слаживание с использованием временных рядов: вы можете также использовать временные параметры с действительными данными, чтобы создать более устойчивую к изменениям модель предсказания.
Оценка и валидация модели: как только данные пройдены через модель, оцените ее на реальных данных, не использованных при обучении. Используйте метрики такие как среднеквадратическая ошибка (MSE) или коэффициент детерминации (R2).
Дополнительная проверка: при использовании результирующих данных для принятий бизнес-решений убедитесь, что вы готовы пересмотреть и настроить модель при необходимости, поскольку рыночные условия могут менять корреляцию между конкурентами.

В конечном итоге, методика, предложенная выше, должна помочь вам достичь решения, которое позволит использовать данные от конкурента для иммутации недостающих значений у вашего ритейлера. Это, в свою очередь, повысит точность и надежность вашего дальнейшего анализа данных. При успешном применении, подобный подход может также быть расширен при дальнейшем анализе и выявлении новых точек соприкосновения с данными от конкурентов.