Какую ценность можно извлечь из проведения разведывательного анализа данных на признаках (и, следовательно, данных) перед кластеризацией?

Question 1

Возможно, это не очень хороший вопрос, но я бы все равно спросил, полезно ли проводить разведочный анализ данных (EDA) перед запуском алгоритма кластеризации?

Я понимаю, что EDA помогает нам генерировать полезные и информативные инсайты о данных, что имеет решающее значение для их понимания. Если оставить в стороне стандартные проверки и манипуляции, такие как удаление выбросов, масштабирование, удаление столбцов с постоянными значениями, удаление столбцов с нулевыми/неопределенными значениями и т. д., и если у нас есть 20-30 признаков.
Как EDA поможет мне в создании хороших и осмысленных кластеров? Необходим ли вообще EDA перед кластеризацией?

Примечание: я использую метод k-средних

Question 2

Как вы узнаете, что необходимо провести кластерный анализ до того, как взглянете на свои данные?

Отставив в сторону вопросы качества данных (чего вы никогда не должны делать), минимальный EDA поможет вам:

Понять, имеет ли смысл проводить кластерный анализ (редко, на мой взгляд)
Понять, является ли метод k-средних лучшим инструментом для кластеризации (редко, на мой взгляд)
Получить представление о количестве кластеров

Затем стоит провести некоторый анализ данных после, чтобы понять, какие кластеры вы выбрали.

Редактировать: В основном, это поможет вам ответить на такие вопросы, как: Как мне интерпретировать результаты кластеризации?

Question 3

С точки зрения управления данными, инженерии данных и аналитики данных, базовый EDA заставит вас разбить и сгруппировать данные по похожим типам данных. Это создаст ситуацию, когда вам придется заниматься управлением данными и инженерией для решения проблем с качеством и целостностью данных перед выполнением более сложной работы. Например, низкокачественные данные — это данные, которые неполные, плохо кодированные или просто трудны для использования в текущем виде.

С точки зрения статистики и искусственного интеллекта и машинного обучения (AIML), данные представлены в разных форматах, что означает, что вы не можете выполнить кластеризацию, если у вас есть, например, сочетание непрерывных и дискретных значений или числовых и категориальных данных.

С точки зрения извлечения данных и обработки естественного языка (NLP), EDA помогает вам увидеть шаблоны. Это позволяет создать базу для любой проблемы, которую вы пытаетесь решить или исследовать.

В общем. Для того чтобы EDA работал (для управления процессом), вам нужно сначала представить и визуализировать свою цель. Запуск данных в Python (sklearn, PyTorch и т. д.) или R (Caret, dplyr и т. д.) без цели, области и/или намерения даст вам некоторые значения (результаты), но вы не будете управлять процессом. Это будут делать библиотеки Python и R, которые написали другие. Это означает, что вы не сможете объяснить свой EDA своему профессору (если это школьный проект) или вашему боссу (если это часть рабочего проекта).

Question 4

EDA помогает в очистке данных (например, обработка пропущенных значений и выбросов, если таковые имеются), а также в обнаружении некоторых паттернов в признаках; для этой цели очень полезно проводить многомерный анализ с условными графиками, где в одном графике вы комбинируете 2/3 признака (например, условный диаграмма разброса).

Тем не менее, как в предыдущем ответе, важно иметь цель, и EDA помогает создать хорошую кластеризацию, которая соответствует вашей цели.

Какую ценность можно извлечь из проведения разведывательного анализа данных на признаках (и, следовательно, данных) перед кластеризацией?

Вопрос или проблема

Ответ или решение