Смысленная предсказательная аналитика для небольшого (n=114) набора данных с всего лишь 1 объясняющей переменной и 1 ответной переменной?

Содержание

Вопрос или проблема
Ответ или решение
1. Понимание структуры данных
2. Модели предсказания
2.1 Линейная регрессия
2.2 Полиномиальная регрессия
2.3 Деревья решений и ансамблевые методы
3. Создание новых признаков
4. Визуализация данных
5. Оценка модели
Заключение

Вопрос или проблема

Мне дана сводная таблица Excel, которая агрегирует данные из довольно большого источника данных (таблица базы данных с 1,9 миллиона записей и другая с около 490 тысяч). Данные внутри файла Excel состоят из 3 колонок: даты понедельников, представляющие их соответствующие недели, количество товаров и количество отгрузок (которое требуется для данного количества товаров). Я должен придумать модель, которая предсказывает количество отгрузок, которое потребуется для данного количества товаров в будущем. Какие модели я мог бы реализовать для такого маленького набора данных с всего лишь 1 объясняющей и 1 ответной переменной? Я знаю, что обычная линейная регрессия с доверительным интервалом будет хорошим началом, но данные имеют плотный кластер и затем разреженные данные с некоторой положительной корреляцией. Цветовая шкала представляет дату (фиолетовый – более ранний, желтый – самый последний)

Создайте дополнительные характеристики из заданных характеристик. Из характеристики “дата” понедельника можно получить характеристики (“месяц”, “год”). Кроме того, месяцы года содержат либо 4, либо 5 понедельников, поэтому можно создать характеристику “неделя” с значением от 1 до 5, которое можно использовать для представления недели месяца, на которую пришелся понедельник. Дополнительные характеристики могут быть созданы путем расчета трендов (Средние отгрузки за предыдущие N отгрузок и т.д.). Это дает алгоритму больше информации для работы и должно обеспечить более точные результаты.

Ответ или решение

Предоставление значимой предсказательной аналитики для небольшого набора данных (n=114) с одним объясняющим и одним ответным переменными представляет собой интересную задачу. В рамках этого обсуждения мы рассмотрим подходы к созданию модели, способной предсказать количество отправлений на основе имеющихся данных о количестве товаров.

1. Понимание структуры данных

Ваш набор данных состоит из трех основных столбцов:

Даты понедельников, которые представляют собой каждую неделю.
Количество товаров, представляющее собой независимую переменную.
Количество отправлений, что является зависимой переменной.

При анализе, учитывая небольшое количество данных и наличие только одной объясняющей переменной, мы должны осознать ограничения этого подхода.

2. Модели предсказания

Наилучшим исходным шагом будет применение линейной регрессии, учитывая простоту и интерпретируемость этой модели. Важно отметить, что плотные кластеры данных и отдельно стоящие наблюдения могут привести к искажению модели, поэтому необходимо рассмотреть и другие модели.

2.1 Линейная регрессия

Простая линейная регрессия будет полезна для выявления основного тренда между количеством товаров и отправлениями. Однако важно учитывать плотность данных. Можно применить регрессию с регуляризацией (например, Ridge или Lasso), чтобы улучшить способность модели обрабатывать выбросы и избегать переобучения.

2.2 Полиномиальная регрессия

Если зависимость между количеством товаров и отправлениями не является линейной, можно использовать полиномиальную регрессию. Этот метод может захватить более сложные паттерны в данных, однако следует быть осторожным, так как использование высоких степеней может привести к переобучению.

2.3 Деревья решений и ансамблевые методы

Еще один подход — использование деревьев решений или ансамблевых методов, таких как Random Forest. Эти алгоритмы могут лучше справляться с ненормальным распределением данных и потенциальными выбросами. Они также автоматически обрабатывают нелинейные зависимости, что может оказаться полезным.

3. Создание новых признаков

Дополнительные факторы могут значительно улучшить модель. Рассмотрите возможность добавления следующие признаки:

Месяц и год: Излечите месяц и год из даты, чтобы исследовать сезонные тенденции.
Неделя месяца: Создайте признак, который будет указывать, в какую неделю месяца попадает данная дата, что может помочь выявить закономерности в отправлениях на разных этапах месяца.
Тренды: Рассмотрите создание признаков, таких как среднее количество отправлений за предыдущие N неделей. Это может показать временные ряды и улучшить точность предсказаний.

4. Визуализация данных

Создание различных графиков, таких как диаграммы рассеяния и временные ряды, позволит лучше понять взаимосвязи между переменными и выявить выбросы. Необходимо установить, как меняется количество отправлений в зависимости от количества товаров с течением времени.

5. Оценка модели

По завершении создания модели оцените её точность с использованием методов кросс-валидации и определите ключевые метрики, такие как RMSE (корень из среднеквадратичной ошибки) или MAE (средняя абсолютная ошибка). Это обеспечит уверенность в том, что модель даст надежные предсказания в будущем.

Заключение

Создание предсказательной модели для небольшого набора данных требует тщательного подхода к выбору алгоритма и обработке признаков. Начните с линейной регрессии и постепенно переходите к более сложным моделям, внедряя дополнительные признаки и визуализируя данные. Это позволит вам получить более точные предсказания о количестве отправлений в зависимости от количества товаров. Подходите к задаче с научной точкой зрения, и вам удастся разработать надежную предсказательную модель.