Вопрос или проблема
Я новичок в ящиковых диаграммах и пытаюсь это понять. Рассмотрим следующие фигуры:
Согласно моему пониманию, аномальные значения будут находиться после максимальной линии и перед минимальной линией. Так что, согласно приведенным выше figuraм, мы можем видеть, что аномальные значения существуют (за исключением атрибутов EXT_Source 2 и EXT_Source 3), которые помечены как черные маленькие круги после максимального значения каждой переменной, я прав??
Ваше толкование ящиковой диаграммы верно.
Но определение аномальных значений в общем случае субъективно… чтобы упростить идею, давайте рассмотрим только верхние аномальные значения (но, вероятно, вам также следует учитывать нижние): вы можете использовать 1% верхних значений, чтобы считать их аномальными, или поступить так, как делает ящиковая диаграмма, и взять те, которые превышают Q3 + 1,5 IQR, или поступить как Такери и считать Q3 + 3IQR.
Если вы используете R, вы можете воспользоваться этой главой из Живой книги по Data Science
.
Ответ или решение
Понимание ящичных диаграмм (Box Plots)
Ящичные диаграммы, или box plots, представляют собой мощный инструмент для визуализации распределения данных и выявления выбросов. Ваша интерпретация графиков, предоставленных в изображении, верна, однако давайте углубимся в детали, чтобы лучше понять, как работают ящичные диаграммы и каким образом можно определить выбросы.
Структура ящичной диаграммы
Ящичная диаграмма состоит из следующих ключевых элементов:
-
Ящик (Box): Основная часть, представляющая собой интерквартильный размах (IQR), который охватывает 50% средних значений данных. Измеряется от первого квартиля (Q1) до третьего квартиля (Q3).
-
Медиана: Линия внутри ящика, делящая его на две половины. Она представляет собой среднее значение наборов данных.
-
Усы (Whiskers): Линии, идущие от верхней и нижней границ ящика, которые показывают диапазон данных за пределами IQR, но не превышающие значение Q3 + 1.5 IQR для верхнего уса и Q1 – 1.5 IQR для нижнего уса.
-
Выбросы (Outliers): Точки, которые находятся за пределами усов. Они обозначены на диаграмме как черные маленькие круги. Обычно выбросами считаются значения, превышающие Q3 + 1.5 IQR или ниже Q1 – 1.5 IQR.
Определение выбросов
Как вы правильно заметили, выбросы в ваших данных определяются в основном по значению, превышающему максимальное значение, которое задается усами ящичной диаграммы. Тем не менее, концепция выбросов может варьироваться в зависимости от контекста:
- Существующие подходы: Существуют разные методы определения выбросов, такие как использование 1% верхних значений, или более строгие подходы, как указывают формулы Тьюки, где учитывается 3 * IQR. Это позволяет вам адаптировать критерии в зависимости от ваших потребностей в анализе.
Практическое применение
Если вы работаете с языком программирования R, вы можете воспользоваться библиотеками и инструментами для визуализации данных и анализа выбросов. В частности, материалы, предложенные в "Data Science Live Book", могут быть вам полезны, так как предлагают подробные примеры и руководства по обработке выбросов и визуализации данных.
Заключение
Ящичные диаграммы являются эффективно простым способом представления сложных наборов данных, позволяя быстро идентифицировать распределение и выбросы. Понимание различных факторов, влияющих на выявление выбросов, и использование инструментов визуализации данных позволяют вам извлекать больше информации из ваших анализов. Займитесь экспериментом с разными подходами к определению выбросов, и это поможет вам разработать более глубокое понимание ваших данных и методов работы с ними.
Если у вас возникнут вопросы, не стесняйтесь обращаться за дополнительной информацией.