Вопрос или проблема
Следует ли вычислять асимметрию и эксцесс до или после разделения на обучающую и тестовую выборки? Есть ли какие-либо последствия от выполнения этого до/после разделения на обучающую и тестовую выборки?
Если вы хотите рассчитать статистику для выбора модели, то следует делать это на обучающих данных, после выполнения разделения на обучающую и тестовую выборки.
Ответ или решение
Скьюнесс и куртоз: Когда и Как Они Должны Быть Рассчитаны
При анализе распределения данных важным этапом является вычисление статистик, таких как скьюнесс и куртоз. Эти метрики помогают понять асимметрию и «пиковость» распределения, что, в свою очередь, может повлиять на выбор модификации и параметры моделей в машинном обучении.
Что такое скьюнесс и куртоз?
Скьюнесс измеряет асимметрию распределения данных. Положительное значение указывает на то, что хвост распределения находится справа, а отрицательное — что слева. Идеальная нормальная выборка имеет скьюнесс, равный нулю.
Куртоз характеризует пиковость распределения. Куртоз показывает, насколько сильно данные сконцентрированы в центре или в хвостах по сравнению с нормальным распределением. Высокий куртоз (позитивный) указывает на наличие легких хвостов и высокий пик, в то время как низкий куртоз (негативный) предполагает более равномерное распределение значений.
Передили ли вычисление статистики до или после разбиения на обучающую и тестовую выборки?
Вопрос, когда именно вычислять скьюнесс и куртоз, является критически важным и имеет определенные последствия.
Вычисление перед разбиением
Если вы вычисляете скьюнесс и куртоз на полном наборе данных, это может привести к искажению результатов:
-
Утечка информации: Использование всей информации без разбиения может привести к подгонке модели под данные, что снизит её обобщающую способность. Измеренные метрики будут слишком оптимистичными, так как вы не учитываете, как модель будет работать на новых, невидимых данных.
-
Неправильное понимание данных: Суммарные метрики могут маскировать реальные особенности отдельных подвыборок, которые станут явными только после разбиения.
Вычисление после разбиения
Проведение анализа скьюнесса и куртоза после разделения данных на обучающую и тестовую выборки имеет множество преимуществ:
-
Корректная оценка: Вычисление этих показателей только для обучающей выборки позволит более реалистично оценить распределение данных, на которых будет проводиться обучение модели. Это исключает влияние случайных особенностей тестовых данных.
-
Оптимизация выбора модели: На основании статистик обучающего набора можно лучше подобрать алгоритм и его гиперпараметры, что в конечном итоге снижает риск переобучения и повышает обобщающую способность модели.
-
Четкая стратегия выборки: Разделение данных обеспечивает более структурированный подход к анализу, давая возможность дополнительно оценить характеристики тестового набора после всех настроек и выбора модели.
Заключение
Подводя итог, можно сказать, что для достижения максимально корректных результатов рекомендуется проводить вычисление скьюнесса и куртоза после выполнения разбиения на обучающую и тестовую выборки. Такой подход позволит избежать утечки информации, улучшить понимание данных и повысить эффективность моделей машинного обучения. Выбирая оптимальную стратегию обработки данных, вы делаете шаг к созданию более надежной и высокоэффективной аналитической модели.