Как оценить степень связанности двух признаков в наборе данных по их распределению?

Содержание

Вопрос или проблема
Ответ или решение
Теория
Пример
Применение
Заключение

Вопрос или проблема

Допустим, у нас есть набор данных, и мы хотим ранжировать его по сходству распределений. Я не хочу использовать визуализацию. Есть ли какой-либо подходящий способ, которым вы можете со мной поделиться?
У меня есть идея, например, мы можем вычитать некоторое количество перцентилей из признаков и найти их среднее значение.

def percentile(feature1, feature2, num_percentiles):
            percentiles1 = np.percentile(feature1, np.linspace(0, 100, num_percentiles))
            percentiles2 = np.percentile(feature2, np.linspace(0, 100, num_percentiles))

            difference = percentiles1 - percentiles2
            ranking = np.mean(np.abs(difference))

            return ranking

Могу ли я использовать это?

Общее решение — это косинусное сходство:
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html

Но, если ваши данные линейны, вы можете предпочесть использовать тепловую карту корреляции на основе алгоритма Пирсона:
https://towardsdatascience.com/seaborn-heatmap-for-visualising-data-correlations-66cbef09c1fe

В обоих случаях вы захотите проверить правильность сходства, взяв несколько образцов и вручную проверив их консистентность.

Подход, который вы предложили, с использованием перцентилей и вычислением среднего различия, может быть простым способом ранжировать наборы данных на основе сходства их распределений. Этот метод сосредотачивается на сравнении характеристик распределений двух признаков. Однако важно отметить, что этот подход может не отразить все аспекты распределений и может упустить некоторые нюансы.

Существуют более сложные статистические меры, которые можно использовать для оценки сходства распределений. Вот несколько альтернатив, которые вы могли бы рассмотреть:

Тест Колмогорова-Смирнова: Тест Колмогорова-Смирнова — это статистический тест, который сравнивает функции распределения вероятностей (CDF) двух наборов данных. Он количественно определяет максимальное различие между CDF, предоставляя меру сходства между распределениями.
Дивергенция Йенсена-Шеннона: Дивергенция Йенсена-Шеннона — это симметричная мера сходства между двумя распределениями вероятностей. Она вычисляет среднее значение дивергенций Кульбака-Лейблера между двумя распределениями и их средним распределением.
Расстояние Вассерштейна (EMD): Расстояние Вассерштейна, известное также как расстояние перемещения Земли, измеряет минимальную “работу”, необходимую для преобразования одного распределения в другое. Оно учитывает пространственные отношения между точками данных и может фиксировать различия в форме и расположении распределений.
Расстояние Бхаттачарьи: Расстояние Бхаттачарьи — это статистическая мера, которая количественно определяет сходство между двумя распределениями вероятностей. Оно принимает во внимание как средние, так и дисперсии распределений, предоставляя метрику, отражающую их перекрытие.

Ответ или решение

Вопрос о сравнении распределений признаков в наборе данных для оценки их сходства является весьма актуальным при анализе данных. Важность анализа распределения данных нельзя недооценивать, поскольку это позволяет лучше понять структуру данных, выявить аномалии и принять обоснованные решения относительно дальнейшей обработки данных. В данной статье рассмотрим различные методы, включая предложенные автором идеи, и обсудим их преимущества и недостатки.

Теория

При сравнении распределений различных признаков в наборе данных, основная цель заключается в оценке степени схожести их распределений. Это может помочь в выявлении корреляций и в понимании того, насколько данные могут быть взаимозависимы. Одним из простых способов оценки схожести распределений является анализ и сравнение их процентилей. Однако этот метод может упускать из виду некоторые важные аспекты распределений, такие как наличие длинных хвостов или мульти-модальности.

Существует несколько более сложных статистических методов, которые могут быть использованы для оценки схожести распределений:

Тест Колмогорова-Смирнова (KS-тест):
Этот тест используется для проверки гипотезы о схожести двух распределений. Он измеряет максимальную разницу между их кумулятивными функциями распределения (CDF). KS-тест особенно полезен при сравнении непрерывных распределений и позволяет выявить даже незначительные различия.
Дивергенция Дженсена-Шеннона (JSD):
Эта мера схожести основана на симметричной вариации дивергенции Кульбака-Лейблера. JSD отличается тем, что она заведомо симметрична и всегда имеет конечное значение, в то время как дивергенция Кульбака-Лейблера может быть асимметричной и неограниченной.
Расстояние Земли (EMD), или Расстояние Васерштейна:
EMD оценивает минимальное количество «работы», необходимой для преобразования одного распределения в другое. Это позволяет учесть пространственные отношения между точками данных и может захватить как форму, так и положение различий распределений.
Расстояние Бхаттачарья:
Это статистическая мера, учитывающая как средние значения, так и дисперсии распределений, что позволяет количественно выражать их степень перекрытия.

Пример

Рассмотрим на примере, как можно применить некоторые из этих методов для оценки схожести распределений. Допустим, у нас есть два набора данных feature1 и feature2, и мы хотим сравнить их распределения.

Использование KS-теста:
```
from scipy.stats import ks_2samp

stat, p_value = ks_2samp(feature1, feature2)
```
Здесь stat будет являться значением статистики теста, а p_value — значением вероятности. Низкое значение p_value будет указывать на значительные различия в распределениях.

Вычисление JSD:

import numpy as np
from scipy.spatial.distance import jensenshannon

# Пример дискретизации данных
histogram1, _ = np.histogram(feature1, bins=100, range=(min(feature1.min(), feature2.min()), max(feature1.max(), feature2.max())), density=True)
histogram2, _ = np.histogram(feature2, bins=100, range=(min(feature1.min(), feature2.min()), max(feature1.max(), feature2.max())), density=True)

jsd_value = jensenshannon(histogram1, histogram2)

Расчет EMD:

from scipy.stats import wasserstein_distance

emd_value = wasserstein_distance(feature1, feature2)

Применение

Выбор подходящего метода оценки схожести распределений данных зависит от конкретной задачи и характеристик ваших данных. Если ваши данные непостоянные, с аномалиями и выбросами, для анализа может быть полезно использовать более сложные методы, которые более чувствительны к различным аспектам распределений, такие как EMD или JSD.

Если ваша задача заключается в быстрой оценке без анализа визуализации, предложенный алгоритм на основе процентильного анализа может стать полезным начальным шагом. Однако для тщательного анализа все же рекомендуется применять статистические тесты, такие как тест Колмогорова-Смирнова или вычисление более сложных метрик, таких как расстояние Бхаттачарья или дивергенция Дженсена-Шеннона.

Заключение

В заключение, выбор подходящего метода для оценки схожести распределений признаков в наборе данных должен базироваться на понимании характеристик данных и целей анализа. Комбинируя несколько методов, вы можете получить более полное представление о своих данных, выявить важные зависимости и сделать обоснованные выводы.