Скошенность и куртозис

Вопрос или проблема

Следует ли вычислять асимметрию и эксцесс до или после разделения на обучающую и тестовую выборки? Есть ли какие-либо последствия от выполнения этого до/после разделения на обучающую и тестовую выборки?

Если вы хотите рассчитать статистику для выбора модели, то следует делать это на обучающих данных, после выполнения разделения на обучающую и тестовую выборки.

Ответ или решение

Скьюнесс и куртоз: Когда и Как Они Должны Быть Рассчитаны

При анализе распределения данных важным этапом является вычисление статистик, таких как скьюнесс и куртоз. Эти метрики помогают понять асимметрию и «пиковость» распределения, что, в свою очередь, может повлиять на выбор модификации и параметры моделей в машинном обучении.

Что такое скьюнесс и куртоз?

Скьюнесс измеряет асимметрию распределения данных. Положительное значение указывает на то, что хвост распределения находится справа, а отрицательное — что слева. Идеальная нормальная выборка имеет скьюнесс, равный нулю.

Куртоз характеризует пиковость распределения. Куртоз показывает, насколько сильно данные сконцентрированы в центре или в хвостах по сравнению с нормальным распределением. Высокий куртоз (позитивный) указывает на наличие легких хвостов и высокий пик, в то время как низкий куртоз (негативный) предполагает более равномерное распределение значений.

Передили ли вычисление статистики до или после разбиения на обучающую и тестовую выборки?

Вопрос, когда именно вычислять скьюнесс и куртоз, является критически важным и имеет определенные последствия.

Вычисление перед разбиением

Если вы вычисляете скьюнесс и куртоз на полном наборе данных, это может привести к искажению результатов:

  1. Утечка информации: Использование всей информации без разбиения может привести к подгонке модели под данные, что снизит её обобщающую способность. Измеренные метрики будут слишком оптимистичными, так как вы не учитываете, как модель будет работать на новых, невидимых данных.

  2. Неправильное понимание данных: Суммарные метрики могут маскировать реальные особенности отдельных подвыборок, которые станут явными только после разбиения.

Вычисление после разбиения

Проведение анализа скьюнесса и куртоза после разделения данных на обучающую и тестовую выборки имеет множество преимуществ:

  1. Корректная оценка: Вычисление этих показателей только для обучающей выборки позволит более реалистично оценить распределение данных, на которых будет проводиться обучение модели. Это исключает влияние случайных особенностей тестовых данных.

  2. Оптимизация выбора модели: На основании статистик обучающего набора можно лучше подобрать алгоритм и его гиперпараметры, что в конечном итоге снижает риск переобучения и повышает обобщающую способность модели.

  3. Четкая стратегия выборки: Разделение данных обеспечивает более структурированный подход к анализу, давая возможность дополнительно оценить характеристики тестового набора после всех настроек и выбора модели.

Заключение

Подводя итог, можно сказать, что для достижения максимально корректных результатов рекомендуется проводить вычисление скьюнесса и куртоза после выполнения разбиения на обучающую и тестовую выборки. Такой подход позволит избежать утечки информации, улучшить понимание данных и повысить эффективность моделей машинного обучения. Выбирая оптимальную стратегию обработки данных, вы делаете шаг к созданию более надежной и высокоэффективной аналитической модели.

Оцените материал
Добавить комментарий

Капча загружается...