Вопрос или проблема
У меня есть набор данных, где переменные имеют высокую асимметрию (> ±1) и куртозис (> ±5). Я попытался удалить выбросы и выполнить логарифмическое преобразование с основанием 10, но асимметрия и куртозис по-прежнему высоки. Есть ли какие-либо аспекты, на которые мне следует обратить внимание?
Несколько вопросов относительно вашего набора данных.
- Какой размер набора данных?
- Какую методику машинного обучения/моделирования вы хотите использовать с этим набором данных? Например, линейная регрессия, кластеризация и т. д.
В целом, ваш подход к использованию логарифмического преобразования является правильным, так как в большинстве случаев это решает проблему. Но в других случаях (в зависимости от того, насколько высока асимметрия, построение графиков переменных здесь помогает лучше оценить асимметрию) вам следует рассмотреть такие техники, как (но не ограничиваясь) преобразование квадратного корня и преобразование Бокса-Кокса.
Вот ссылка https://towardsdatascience.com/top-3-methods-for-handling-skewed-data-1334e0debf45
Ответ или решение
Обработка скошенности и куртозиса данных
Работа с наборами данных, имеющими высокую скошенность (> ±1) и куртозис (> ±5), представляет собой важную задачу, особенно когда речь идет о подготовке данных для анализа и машинного обучения. В вашем случае, несмотря на применение логарифмического преобразования и удаление аномалий, показатели скошенности и куртозиса остаются высокими. Рассмотрим, какие шаги можно предпринять для улучшения ситуации.
Размер набора данных
Первым шагом в оценке проблемы является анализ размера вашего набора данных. Размер может существенно повлиять на расчеты и их интерпретацию. Для небольших выборок даже небольшие изменения в данных могут значительно повлиять на показатели скошенности и куртозиса. Если ваш набор данных достаточно мал, рассмотрите возможность его расширения, например, увеличив количество наблюдений.
Выбор метода машинного обучения
Следующий аспект, на который следует обратить внимание, – это выбранная вами техника машинного обучения. Разные методы могут иметь разную чувствительность к скошенности и куртозису данных. Например, линейная регрессия требует более нормального распределения, в то время как деревья решений или модели на основе ансамблей (например, Random Forest) могут быть более устойчивыми к этим проблемам.
Методы трансформации
Как уже упоминалось, логарифмическое преобразование является распространенным методом для обработки скошенности. Тем не менее, существуют и другие варианты, которые стоит рассмотреть:
-
Корень квадратный (Square Root Transform): Это трансформация может помочь при содержании большого количества нулевых значений, так как она менее чувствительна к ним по сравнению с логарифмическим преобразованием.
-
Box-Cox Transform: Эта методика предоставляет диапазон трансформаций, которые могут адаптироваться к данным. Функция Box-Cox определяет наилучшее значение параметра λ, чтобы приблизить распределение ваших данных к нормальному. Preliminary, однако, требует наличия только положительных значений.
-
Yeo-Johnson Transform: Это обобщение Box-Cox, которое может обрабатывать как положительные, так и отрицательные значения, что делает его универсальным для более широкого спектра данных.
Визуализация данных
Построение графиков (например, гистограмм или диаграмм плотности) может быть полезным для визуализации скошенности и куртозиса. Визуализация помогает понять, насколько данные отклоняются от нормального распределения, и позволяет выбрать более подходящую стратегию их обработки.
Корреляция с другими переменными
Важно исследовать, как переменные в наборе данных соотносятся между собой. Высокая корреляция может указывать на наличие групп переменных с похожими распределениями. Проведение анализа может помочь выявить основные драйверы скошенности и куртозиса.
Сравнение с другими методами обработки данных
Кроме вышеупомянутых методов трансформации, рассмотрите также возможность применения методов отбора признаков, которые могут снизить влияние переменных с высоким уровнем скошенности и куртозиса. Это может включать в себя методы, такие как LASSO или ElasticNet, которые могут помочь в регуляризации модели.
Заключение
Обработка скошенных и высококуртозных данных – это многоуровневая задача, которая требует внимательного подхода. Проанализируйте размер вашего набора данных, изучите совместимость оценок с методом машинного обучения, попробуйте новые трансформации и не забывайте о важности визуализации. Чем лучше вы поймете свои данные, тем эффективнее сможете применять азы машинного обучения.