Что такое блокированная кросс-валидация и зачем она нужна?

Вопрос или проблема

Я читал о вариантах перекрестной проверки для временных рядов и нашел изменение, называемое заблокированной перекрестной проверкой. На странице, которую я читал, говорится следующее:

“Тем не менее, это может привести к утечке информации из будущих данных в модель. Модель будет наблюдать будущие паттерны, чтобы прогнозировать и пытаться запомнить их. Вот почему была предложена заблокированная перекрестная проверка.(…) Второй (маржинальный) – это между сложениями, используемыми на каждой итерации, чтобы предотвратить запоминание моделью паттернов с одной итерации на другую.”

Как я понимаю, итерации независимы, таким образом, модель обучается с нуля на каждой итерации. Как модель может “запоминать” паттерны с одной итерации на другую?

Первый график представляет проблемный подход, а второй — решение заблокированной перекрестной проверки.

Этот подход имеет предполагаемую проблему.

Этот подход решает проблему.

Заблокированная перекрестная проверка временных рядов очень похожа на традиционную перекрестную проверку. Как вы знаете, CV берет часть набора данных и откладывает ее только для тестирования. Данные могут быть взяты из любой части оригинальных данных: начала, середины, конца и т.д. Не имеет значения, откуда, потому что вы предполагаете, что дисперсия одинакова на протяжении всего набора.

Но поскольку данные временных рядов меняются каким-то образом, вы не можете контролировать, нужно их тщательно нарезать. Это сохраняет срез времени (и его переменные), привязанные к одной меньшей секции, надеюсь, там, где дисперсия или что-то еще не меняется значительно.

С разбиением по временным рядами, показанным выше, используются части данных для обеих целей: обучения и тестирования. Рассмотрим первую итерацию cv (#0), половина используется для тестирования и половина для обучения, нормально. Но когда вы переходите к CV-#2, вы теперь снова используете тестовый блок (допустим, он красный) в следующем синем наборе для обучения. Используя разные и растущие части снова и снова. В конечном итоге используя почти все данные для обучения И тестирования.

Аргументы, приведенные в статье на Medium, не имеют смысла. Использование данных для обучения и тестирования (на разных итерациях) – это суть перекрестной проверки, поскольку это позволяет вам использовать больше данных для обучения с перекрестной проверкой, чем если бы вы просто разделили данные на один набор для обучения и один для проверки.

user165488, проблема заключается в использовании одних и тех же данных или данных из одного и того же блока данных как в обучающем, так и в тестовом (также в валидационном) наборах данных. Это называется “утечка данных” и приведет к чрезмерно оптимистичным результатам производительности модели.

Ответ или решение

Что такое блокированная кросс-валидация и зачем её использовать?

Блокированная кросс-валидация является важным инструментом при моделировании временных рядов. В отличие от традиционной кросс-валидации, которая может не учитывать временные зависимости в данных, блокированная кросс-валидация делит набор данных на отдельные блоки во времени, чтобы избежать утечки информации и переобучения моделей.

Понимание концепции кросс-валидации

Кросс-валидация — это подход, позволяющий оценить обобщающую способность модели, разделяя данные на обучающую и тестовую выборки. В традиционном подходе данные могут смешиваться, что позволяет использовать их в разных итерациях. Однако в контексте временных рядов это может привести к проблемам, связанным с "утечкой" будущей информации в процессе обучения модели.

Проблема утечки информации

Когда мы обучаем модели на временных рядах, крайне важно следить за тем, чтобы данные о будущем не использовались в качестве обучающих. Если данные, полученные на более поздних моментах времени, попадают в обучение модели на предыдущих этапах, это может искажать результаты. Модель начинает запоминать паттерны, которые фактически основываются на будущих событиях, а не на реальных временных взаимосвязях.

Как работает блокированная кросс-валидация?

Блокированная кросс-валидация не просто разбивает данные на случайные фрагменты. Она структурирует выборки, чтобы они последовательно включали только предшествующие данные для обучения и выборку данных, которые идут непосредственно после них для тестирования. Это обеспечивает таким образом, чтобы данные из будущего не влияли на модель в предыдущих итерациях.

Иллюстрация:

  1. В традиционной кросс-валидации вы, возможно, делите данные произвольно. Например, для первой итерации вы можете взять первую половину (тренировочную выборку) и следом — вторую (тестовую выборку).
  2. В блокированной кросс-валидации данные делятся на последовательные блоки (например, недели или месяцы), где каждый блок используется для тестирования только после того, как все предыдущие блоки были использованы для обучения.

Преимущества использования блокированной кросс-валидации

  1. Избежание утечки данных: Используя строго определённые временные блоки, вы предотвращаете возможность использования будущих данных для обучения.

  2. Более адекватная оценка модели: Такой подход позволяет более точно оценить, насколько хорошо модель будет справляться с реальными данными из будущего, благодаря тому, что она обучена только на данных, предшествующих тестовым.

  3. Устойчивость к изменчивости: Блокированная кросс-валидация помогает учесть временные колебания и изменения в данных, поскольку каждый блок может отражать определённые тренды и сезонные колебания.

  4. Лучшее моделирование временных зависимостей: Выделяя временные блоки, можно лучше понять, как изменения во времени влияют на прогнозы, что является ключевым аспектом в анализе временных рядов.

Заключение

Блокированная кросс-валидация — это мощный инструмент для анализа временных рядов, который позволяет избежать утечки данных и обеспечивает более точную оценку производительности модели. Понимание важности временной структуры данных и эффективное использование блокированной кросс-валидации поможет улучшить результаты моделирования и принятия решений на основе данных.

Оцените материал
Добавить комментарий

Капча загружается...