Понимание ящиков с усами

Вопрос или проблема

Я новичок в ящиковых диаграммах и пытаюсь это понять. Рассмотрим следующие фигуры:

вставьте описание изображения сюда

Согласно моему пониманию, аномальные значения будут находиться после максимальной линии и перед минимальной линией. Так что, согласно приведенным выше figuraм, мы можем видеть, что аномальные значения существуют (за исключением атрибутов EXT_Source 2 и EXT_Source 3), которые помечены как черные маленькие круги после максимального значения каждой переменной, я прав??

Ваше толкование ящиковой диаграммы верно.

Но определение аномальных значений в общем случае субъективно… чтобы упростить идею, давайте рассмотрим только верхние аномальные значения (но, вероятно, вам также следует учитывать нижние): вы можете использовать 1% верхних значений, чтобы считать их аномальными, или поступить так, как делает ящиковая диаграмма, и взять те, которые превышают Q3 + 1,5 IQR, или поступить как Такери и считать Q3 + 3IQR.

Если вы используете R, вы можете воспользоваться этой главой из Живой книги по Data Science

.

Ответ или решение

Понимание ящичных диаграмм (Box Plots)

Ящичные диаграммы, или box plots, представляют собой мощный инструмент для визуализации распределения данных и выявления выбросов. Ваша интерпретация графиков, предоставленных в изображении, верна, однако давайте углубимся в детали, чтобы лучше понять, как работают ящичные диаграммы и каким образом можно определить выбросы.

Структура ящичной диаграммы

Ящичная диаграмма состоит из следующих ключевых элементов:

  1. Ящик (Box): Основная часть, представляющая собой интерквартильный размах (IQR), который охватывает 50% средних значений данных. Измеряется от первого квартиля (Q1) до третьего квартиля (Q3).

  2. Медиана: Линия внутри ящика, делящая его на две половины. Она представляет собой среднее значение наборов данных.

  3. Усы (Whiskers): Линии, идущие от верхней и нижней границ ящика, которые показывают диапазон данных за пределами IQR, но не превышающие значение Q3 + 1.5 IQR для верхнего уса и Q1 – 1.5 IQR для нижнего уса.

  4. Выбросы (Outliers): Точки, которые находятся за пределами усов. Они обозначены на диаграмме как черные маленькие круги. Обычно выбросами считаются значения, превышающие Q3 + 1.5 IQR или ниже Q1 – 1.5 IQR.

Определение выбросов

Как вы правильно заметили, выбросы в ваших данных определяются в основном по значению, превышающему максимальное значение, которое задается усами ящичной диаграммы. Тем не менее, концепция выбросов может варьироваться в зависимости от контекста:

  • Существующие подходы: Существуют разные методы определения выбросов, такие как использование 1% верхних значений, или более строгие подходы, как указывают формулы Тьюки, где учитывается 3 * IQR. Это позволяет вам адаптировать критерии в зависимости от ваших потребностей в анализе.

Практическое применение

Если вы работаете с языком программирования R, вы можете воспользоваться библиотеками и инструментами для визуализации данных и анализа выбросов. В частности, материалы, предложенные в "Data Science Live Book", могут быть вам полезны, так как предлагают подробные примеры и руководства по обработке выбросов и визуализации данных.

Заключение

Ящичные диаграммы являются эффективно простым способом представления сложных наборов данных, позволяя быстро идентифицировать распределение и выбросы. Понимание различных факторов, влияющих на выявление выбросов, и использование инструментов визуализации данных позволяют вам извлекать больше информации из ваших анализов. Займитесь экспериментом с разными подходами к определению выбросов, и это поможет вам разработать более глубокое понимание ваших данных и методов работы с ними.

Если у вас возникнут вопросы, не стесняйтесь обращаться за дополнительной информацией.

Оцените материал
Добавить комментарий

Капча загружается...