Вопрос или проблема
Я пытаюсь понять, как читать диаграмму рассеяния на основе результатов моей матрицы ошибок. Это матрица ошибок:
Я заметил высокую корреляцию между столбцом 5 и столбцом 6, низкую корреляцию со столбцом 11 и среднюю корреляцию со столбцом 1, поэтому решил создать диаграмму рассеяния, чтобы увидеть различия:
Как мне это читать? Например, корреляция между столбцом 6 и 5 выражается тем, что я могу линейно разделить образцы каждого класса? Почему у столбца 11 другая диаграмма?
Высокая корреляция: Это в основном означает, что если одна переменная изменяется, то другая переменная будет изменяться в том же направлении. Например, взаимосвязь между количеством времени, потраченным на учебу, и оценками, получаемыми студентом. Как правило, чем больше времени студент проводит на учебе, тем лучше оценки он получает. Это была бы положительная корреляция, потому что обе переменные увеличиваются вместе.
Если вы это поняли, то вы действительно можете увидеть, что переменная 5 изменяется и переменная 6 также изменяется в том же направлении, но они слишком близки, чтобы их различить.
Средняя корреляция: Это относится к взаимосвязи между двумя переменными, которая является реальной и статистически значимой, но недостаточно сильной, чтобы ее можно было считать высокой корреляцией. Например, взаимосвязь между ростом и весом человека. Несмотря на то, что существует общая тенденция к тому, что более высокие люди весят больше, чем более низкие, есть много других факторов, таких как диета, образ жизни и генетика, которые могут влиять на вес человека. Следовательно, корреляция не такая сильная и прямая, как в примере с высокой корреляцией.
Ваша диаграмма рассеяния показывает, что столбец 5 изменяется, но столбец 11 не изменяется так, как столбец 5. И похоже, что ваш столбец 11 носит категориальный характер.
Низкая корреляция: Низкая корреляция относится к взаимоотношению между двумя переменными, которое не удовлетворяет линейному шаблону. Другими словами, изменения в одной переменной не всегда соответствуют изменениям в другой переменной. Например, может быть низкая корреляция между количеством кофе, которое человек пьет, и его уровнем дохода. Хотя может существовать некоторая взаимосвязь, она недостаточно последовательна или сильна, чтобы предположить, что употребление большего количества кофе обязательно приведет к более высокому доходу.
На диаграмме рассеяния вы можете увидеть, что даже если столбец 5 меняется, столбец 1 не меняется так сильно.
Ответ или решение
10Углубленное понимание диаграмм рассеяния часто требует, чтобы аналитик полноценно интерпретировал данные, представленные на графике. В данном случае рассматривать стоит в контексте результатов матрицы ошибок (confusion matrix) и наблюдаемых корреляций между столбцами.
Теория:
Диаграмма рассеяния — это графический метод визуализации взаимосвязей между двумя количественными переменными. На таком графике каждая точка соответствует значениям двух переменных в той или иной выборке данных.
-
Высокая корреляция: Если показатель корреляции высок, это указывает на сильную линейную зависимость между двумя переменными. Изменение одной переменной с большой вероятностью будет сопровождаться изменением другой в том же направлении.
-
Средняя корреляция: Здесь наблюдаемая взаимосвязь менее выражена. Даже если имеется статистически значимая связь, могут присутствовать другие факторы, влияющие на результат.
-
Низкая корреляция: Связь между переменными слабая или отсутствует. Изменения одной переменной мало влияют на другую.
Пример:
В вашей диаграмме рассеяния использовались столбцы 5, 6, 1 и 11. Если для столбцов 5 и 6 существует высокая корреляция, то точки расположены близко к линейной наклонной линии, что иллюстрирует согласованное изменение значений.
Для столбцов 5 и 1 корреляция слабая, потому как точки более рассеянные, и изменения одной переменной не ведут к систематическим изменениям другой.
Что касается столбца 11, вероятно, это категориальная переменная, что может объяснять иной способ визуализации. Диаграмма для такой переменной обычно имеет дискретные наборы точек.
Применение:
Понимание того, как читать и интерпретировать диаграммы рассеяния, значительно упрощает принятие решений на основе данных. Если вы видите высокую корреляцию, это может допустимо для прогнозирования или объяснения одной переменной через другую. В случае низкой корреляции, строить гипотезы о причинно-следственной связи не стоит.
Итак, рассматривая ваш вопрос: да, если корреляция между столбцами 5 и 6 высока, можно сказать, что изменения одной переменной сопровождаются изменениями другой. Разные визуализации для других столбцов объясняются отличиями в природе их данных, такими как категорийность столбца 11.
Эффективное прочтение диаграмм рассеяния требует не только анализа корреляции, но и осознания контекста и характеристик данных, что помогает в верной интерпретации и применении результатов анализа.