Вопрос или проблема
Мне дана сводная таблица Excel, которая агрегирует данные из довольно большого источника данных (таблица базы данных с 1,9 миллиона записей и другая с около 490 тысяч). Данные внутри файла Excel состоят из 3 колонок: даты понедельников, представляющие их соответствующие недели, количество товаров и количество отгрузок (которое требуется для данного количества товаров). Я должен придумать модель, которая предсказывает количество отгрузок, которое потребуется для данного количества товаров в будущем. Какие модели я мог бы реализовать для такого маленького набора данных с всего лишь 1 объясняющей и 1 ответной переменной? Я знаю, что обычная линейная регрессия с доверительным интервалом будет хорошим началом, но данные имеют плотный кластер и затем разреженные данные с некоторой положительной корреляцией. Цветовая шкала представляет дату (фиолетовый – более ранний, желтый – самый последний)
Создайте дополнительные характеристики из заданных характеристик. Из характеристики “дата” понедельника можно получить характеристики (“месяц”, “год”). Кроме того, месяцы года содержат либо 4, либо 5 понедельников, поэтому можно создать характеристику “неделя” с значением от 1 до 5, которое можно использовать для представления недели месяца, на которую пришелся понедельник. Дополнительные характеристики могут быть созданы путем расчета трендов (Средние отгрузки за предыдущие N отгрузок и т.д.). Это дает алгоритму больше информации для работы и должно обеспечить более точные результаты.
Ответ или решение
Предоставление значимой предсказательной аналитики для небольшого набора данных (n=114) с одним объясняющим и одним ответным переменными представляет собой интересную задачу. В рамках этого обсуждения мы рассмотрим подходы к созданию модели, способной предсказать количество отправлений на основе имеющихся данных о количестве товаров.
1. Понимание структуры данных
Ваш набор данных состоит из трех основных столбцов:
- Даты понедельников, которые представляют собой каждую неделю.
- Количество товаров, представляющее собой независимую переменную.
- Количество отправлений, что является зависимой переменной.
При анализе, учитывая небольшое количество данных и наличие только одной объясняющей переменной, мы должны осознать ограничения этого подхода.
2. Модели предсказания
Наилучшим исходным шагом будет применение линейной регрессии, учитывая простоту и интерпретируемость этой модели. Важно отметить, что плотные кластеры данных и отдельно стоящие наблюдения могут привести к искажению модели, поэтому необходимо рассмотреть и другие модели.
2.1 Линейная регрессия
Простая линейная регрессия будет полезна для выявления основного тренда между количеством товаров и отправлениями. Однако важно учитывать плотность данных. Можно применить регрессию с регуляризацией (например, Ridge или Lasso), чтобы улучшить способность модели обрабатывать выбросы и избегать переобучения.
2.2 Полиномиальная регрессия
Если зависимость между количеством товаров и отправлениями не является линейной, можно использовать полиномиальную регрессию. Этот метод может захватить более сложные паттерны в данных, однако следует быть осторожным, так как использование высоких степеней может привести к переобучению.
2.3 Деревья решений и ансамблевые методы
Еще один подход — использование деревьев решений или ансамблевых методов, таких как Random Forest. Эти алгоритмы могут лучше справляться с ненормальным распределением данных и потенциальными выбросами. Они также автоматически обрабатывают нелинейные зависимости, что может оказаться полезным.
3. Создание новых признаков
Дополнительные факторы могут значительно улучшить модель. Рассмотрите возможность добавления следующие признаки:
- Месяц и год: Излечите месяц и год из даты, чтобы исследовать сезонные тенденции.
- Неделя месяца: Создайте признак, который будет указывать, в какую неделю месяца попадает данная дата, что может помочь выявить закономерности в отправлениях на разных этапах месяца.
- Тренды: Рассмотрите создание признаков, таких как среднее количество отправлений за предыдущие N неделей. Это может показать временные ряды и улучшить точность предсказаний.
4. Визуализация данных
Создание различных графиков, таких как диаграммы рассеяния и временные ряды, позволит лучше понять взаимосвязи между переменными и выявить выбросы. Необходимо установить, как меняется количество отправлений в зависимости от количества товаров с течением времени.
5. Оценка модели
По завершении создания модели оцените её точность с использованием методов кросс-валидации и определите ключевые метрики, такие как RMSE (корень из среднеквадратичной ошибки) или MAE (средняя абсолютная ошибка). Это обеспечит уверенность в том, что модель даст надежные предсказания в будущем.
Заключение
Создание предсказательной модели для небольшого набора данных требует тщательного подхода к выбору алгоритма и обработке признаков. Начните с линейной регрессии и постепенно переходите к более сложным моделям, внедряя дополнительные признаки и визуализируя данные. Это позволит вам получить более точные предсказания о количестве отправлений в зависимости от количества товаров. Подходите к задаче с научной точкой зрения, и вам удастся разработать надежную предсказательную модель.