Коэффициент корреляции Пирсона (Pearson Correlation Coefficient) - Лена Капаца
Коэффициент корреляции Пирсона (Pearson Correlation Coefficient) by Лена Капаца April 4, 2024 Основы

Коэффициент корреляции Пирсона - это статистическая мера, используемая для оценки силы и направления линейной связи между двумя переменными. Он измеряет, насколько сильно связаны две переменные и в каком направлении их связь: положительная, отрицательная или отсутствие связи. Этот коэффициент принимает значения от -1 до 1, где -1 указывает на полную отрицательную линейную связь, 1 - на положительную линейную связь, а 0 - на отсутствие линейной связи.

Предположим, у нас есть две переменные, X и Y. Чтобы вычислить коэффициент корреляции Пирсона между ними, мы можем использовать следующую формулу:

\[ r = \frac{\sum{(X_i - \bar{X})(Y_i - \bar{Y})}}{\sqrt{\sum{(X_i - \bar{X})^2} \sum{(Y_i - \bar{Y})^2}}} \]

Где:
- \( r \) - коэффициент корреляции Пирсона,
- \( X_i \) и \( Y_i \) - значения переменных X и Y соответственно,
- \( \bar{X} \) и \( \bar{Y} \) - средние значения переменных X и Y.

Давайте рассмотрим пример на Python, чтобы лучше понять эту концепцию:


import numpy as np

 

Сгенерируем случайные данные:


X = np.random.randn(100)
Y = 2 * X + np.random.normal(0, 0.5, 100)  # Y зависит от X с добавлением случайного шума

 

Вычислим средние значения X и Y:


mean_X = np.mean(X)
mean_Y = np.mean(Y)

 

Вычислим числитель и знаменатель формулы для коэффициента корреляции Пирсона:


numerator = np.sum((X - mean_X) * (Y - mean_Y))
denominator = np.sqrt(np.sum((X - mean_X)**2) * np.sum((Y - mean_Y)**2))

 

Вычислим коэффициент корреляции Пирсона:


correlation_coefficient = numerator / denominator
print("Коэффициент корреляции Пирсона:", correlation_coefficient)

В этом примере мы используем библиотеку NumPy для генерации случайных данных X и Y. Мы создаем зависимость между X и Y, умножая X на 2 и добавляя случайный шум. Затем мы вычисляем средние значения X и Y, а затем числитель и знаменатель формулы для коэффициента корреляции Пирсона. Наконец, мы вычисляем сам коэффициент и выводим его значение.

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

© Лена Капаца. Все права защищены.