Вопрос или проблема
Я использую экспоненциальное сглаживание и Tableau для прогнозирования. В первой модели я включил тенденцию и убрал сезонность, и она предсказала увеличение числа случаев, но качество, по данным таблиц, оказалось “Хорошо” (в Tableau есть 3 диапазона для описания качества модели – Плохо, Нормально и Хорошо). Во второй модели я убрал тенденцию и добавил сезонность, и это показало снижение числа случаев, качество модели согласно Tableau было хорошим. Какую модель мне следует использовать здесь? Мой профессор говорит, что это выравнивание кривой, поэтому во второй модели происходит снижение, в то время как мои товарищи по команде утверждают, что первой моделью следует считать правильную.
Я бы предложил сначала взять некоторые тренировочные данные, создать обе модели на основе этих данных и сравнить результаты на тестовых данных, например:
Если у вас есть данные с 1 января 2020 года по 28 апреля 2020 года.
Дайте модели данные с 1 января 2020 года по 31 марта (или вы можете выбрать другой диапазон), создайте модель и сделайте прогноз на апрель.
И сравните результаты обеих моделей за апрель (с 1 по 28 апреля).
Таким образом, вы сможете лучше аргументировать свои выводы на основе результатов.
Ответ или решение
Выбор между двумя моделями прогнозирования заболеваемости COVID-19 в Нью-Йорке — это сложная задача, требующая внимательного анализа. Ваши результаты показывают два разных подхода: один с использованием тренда без сезонности и другой с сезонностью без тренда. Давайте рассмотрим оба варианта более детально, избегая клише и обеспечивая высокое качество анализа.
1. Оценка моделей
Ваши модели дают противоречивые результаты. Первая модель предсказывает рост заболеваемости с качеством "ОК", тогда как вторая показывает снижение заболеваемости с оценкой "Хорошо". Таким образом, первое, что необходимо сделать — это понять причины этих различий.
-
Модель с трендом и без сезонности: Эта модель предполагает, что заболеваемость будет расти в будущем, что может быть обосновано текущими данными. Однако, показатель "ОК" указывает на то, что предсказания могут не совсем адекватно отражать реальность, возможно, из-за недооценки факторов, таких как изменения в политике здравоохранения или поведения населения.
-
Модель без тренда и с сезонностью: В этом случае вы наблюдаете снижение числа случаев, что может быть связано с "уплощением кривой", как говорит ваш профессор. Оценка "Хорошо" указывает на то, что модель более точно учитывает исторические данные и проявляет лучшую адаптацию к их изменчивости.
2. Подход к тестированию моделей
Для лучшего понимания и аргументации выбора между двумя моделями, предлагается следующий подход:
-
Разделение данных: Вы можете использовать данные за период с 1 января 2020 года по 28 апреля 2020 года, где тренировка может охватывать данные с 1 января по 31 марта, а тестовая выборка с 1 по 28 апреля.
-
Сравнение результатов: ПрогнозируйтеCases for April using both models and compare their performance based on accuracy metrics such as Mean Absolute Error (MAE) or Root Mean Square Error (RMSE). This approach позволит вам получить более конкретные данные о том, какая модель действительно лучше работает на тестовых данных.
3. Анализ и выводы
-
Контекст: Важно помнить, что эпидемиологическая ситуация может изменяться в зависимости от различных факторов — таких как меры по ограничению распространения вируса, вакцинация и изменение поведения населения. Поэтому, хотя первая модель и показывает рост заболеваемости, это может не соответствовать реальности, если факторы, уменьшающие заболеваемость, принимаются во внимание во второй модели.
-
Интерпретация: Если вторая модель показывает оценку "Хорошо", это может указывать на то, что она лучше адаптирована к текущей ситуации и, следовательно, более надежна для прогнозирования заболеваемости в будущем. Модели с низкой или средней оценкой качества могут привести к неправильным выводам и решениям, что критично в условиях пандемии.
Заключение
Учитывая приведенные выше детали, вам стоит рассмотреть вторую модель как предпочтительную до тех пор, пока нет значимых изменений в данных, или пока не станут доступны новые факторы, которые потребуют пересмотра моделей. Это поможет более эффективно произвести прогнозы и обоснованно аргументировать ваш выбор перед коллегами и руководством. Ваш подход к тестированию и анализу данных не только возвышает ваш профессионализм, но и способствует повышению достоверности прогнозов, что является критически важным в условиях продолжающейся пандемии.