Вопрос или проблема
Я пытаюсь предсказать значение y. Меня в основном интересует, когда его пики будут и как будет выглядеть общая кривая за день. Менее важно, чтобы фактически предсказанные значения были точными.
Чуть преувеличивая: мне все равно, если каждое предсказанное значение в 10 раз больше фактического, лишь бы каждое предсказанное значение было в 10 раз выше. В дополнение к этому пики в моей ситуации намного важнее, чем минимумы или средние значения, что означает, что ошибки, близкие к пиковым значениям, должны наказываться сильнее.
Я знаю о стандартных метриках оценки, таких как RSME, MAE и т.д. Однако, если я не ошибаюсь, они все пытаются измерить своего рода «среднюю» или «об среднюю» ошибку, что не обязательно является тем, что мне интересно.
Я искал это, но, возможно, из-за того, что не смог достаточно четко изложить свою проблему в поисковой системе, я не нашел ничего действительно полезного.
Не стесняйтесь спрашивать, если я не разъяснил что-то.
Однако возможно, что вы на самом деле неправильно понимаете термин «средний» здесь. Вы правы, указывая на «среднюю ошибку», но, возможно, это не 100% ясно, что это означает. Визуализируйте кривую и ваше предсказание. Если ваша «средняя ошибка» хороша, это означает, что по всей кривой ваше предсказание в среднем не так уж далеко от истинного значения.
Если это понято, тогда кажется, что вы пытаетесь получить как среднее (потому что это дает вам меру «соответствует ли кривая в целом»), но также хотите удостовериться, что пики имеют больший вес.
Для второго момента вы можете использовать метрики точности, такие как средняя процентная ошибка с учетом пиков или подобные, которые на самом деле взвешивают ошибки, близкие к этим пикам, больше, чем другие. Другой способ — наказывать пики сильнее (например, посчитать среднюю ошибку, но с более высокими порядками степеней).
В реальных проблемах я бы использовал оба метода и сообщал о «пиковой» ошибке, а также о общем соответствии.
Я не могу добавить комментарии к вашему вопросу, чтобы попытаться прояснить свое понимание. Поэтому здесь, возможно, помогая мне, вы можете помочь и себе. Мне кажется, что вы, возможно, ищете качественные инварианты, возможно, о недельной временной серии оценки производной, что эта производная временная серия была бы более информативной, чем исходная временная серия переменной Y.
Не читая дальше, чтобы отвергнуть вышеуказанную гипотезу моего чтения, я бы подумал, что вы, возможно, хотите рассмотреть инструменты оценки на основе временного окна или какую-то форму интеграции ядер для вашей временной серии (я бы не знал, как это назвать). Теперь, читая дальше. Производная — это наклон, который, кажется, вы находите более информативным, чем то, где переменная находится в какой-то момент времени.
Наклон, в зависимости от диапазона вашего оценщика и временного интервала выборки временной серии, возможно, можно классифицировать по некоторым бинам вашего интереса.
Этот расплывчатый ответ может быть полезным для уточнения вашего вопроса.
Хорошо, перечитал. И кажется, вы хотите некоторого усреднения по дням этой производной величины. Если я вообще что-то понял. Это может зависеть от того, как вы строите оценщик производной. Мои слова могут не быть терминами или понятиями статистики или вашей области. Я бы не знал акронимы.
Ответ или решение
Для решения вашей задачи по оценке точности предсказаний временных рядов, ориентированной на формы кривой и расположение пиков, можно использовать несколько подходов, которые лучше подходят вашим требованиям, чем традиционные метрики, такие как RMSE или MAE.
1. Введение в Метрики Оценки
Традиционные метрики, такие как RMSE (корень из среднеквадратичной ошибки) и MAE (средняя абсолютная ошибка), действительно сосредоточены на общей точности предсказаний. Однако они не учитывают более высокую значимость ошибок, возникающих вблизи пиков, что является ключевым для ваших потребностей.
2. Метрики, Фокусирующиеся на Пиках
Наиболее подходящими могут быть следующие метрики:
-
Весовая MAPE (Weighted Mean Absolute Percentage Error): Эта метрика позволяет назначать разные веса на различные участки временного ряда. Например, вы можете увеличить вес для точек, находящихся на пиках, что заставит модель делать более точные предсказания именно в этих точках.
-
Последовательное суммирование ошибок (Cumulative Error Sum): Вместо вычисления средней ошибки по всему временному ряду, вы можете сосредоточиться на сумме абсолютных ошибок, относящихся только к пикам. Это может быть сделано путем определения порогового значения для признаков пиков и дальнейшего суммирования ошибок, превышающих этот порог.
-
Смешанная метрика (Hybrid Metric): Создание метрики, которая сочетает в себе общую среднюю ошибку и специальное отношение для пиков. Например, можно использовать функцию, в которой более высокие ошибки на пиках получают больший вес, а на более низких значениях – меньший.
3. Анализ Производных временных рядов
Если вам важен "скат" или скорость изменения данных во времени, то вы можете исследовать:
-
Первую производную: Вычисление производных временного ряда может помочь понять, когда происходят резкие изменения. Метрики, основанные на производной, могут более точно отразить ваши интересы в отношении кривой, так как пик будет связан с резким изменением.
-
Анализ наклона: Определение угла наклона в пределах временного окна и оценка его по типу кривой может дать дополнительные показатели для оценки точности предсказания форм кривой.
4. Применение методов скользящего окна
Методы, основанные на скользящих окнах, могут помочь создать “локальные” метрики, которые будут учитывать поведение кривой в определенные промежутки времени, что может быть полезно для нахождения пиков и определения их значимости.
Заключение
Традиционные метрики имеют свои пределы в оценке временных рядов, особенно когда дело касается форм кривых и их пиков. Использование взвешенных метрик, анализа производных и методов скользящего окна может обеспечить более точный результат в соответствии с вашими критериями. Также, комбинирование различных подходов для создания комплексной метрики, которая охватывает как общую ошибку, так и ошибки на пиках, может значительно улучшить качество ваших предсказаний.
Если у вас есть дополнительные вопросы или вам нужна более детальная информация по конкретному подходу, пожалуйста, дайте знать!