Коэффициент корреляции Пирсона - это статистическая мера, используемая для оценки силы и направления линейной связи между двумя переменными. Он измеряет, насколько сильно связаны две переменные и в каком направлении их связь: положительная, отрицательная или отсутствие связи. Этот коэффициент принимает значения от -1 до 1, где -1 указывает на полную отрицательную линейную связь, 1 - на положительную линейную связь, а 0 - на отсутствие линейной связи.
Предположим, у нас есть две переменные, X и Y. Чтобы вычислить коэффициент корреляции Пирсона между ними, мы можем использовать следующую формулу:
\[ r = \frac{\sum{(X_i - \bar{X})(Y_i - \bar{Y})}}{\sqrt{\sum{(X_i - \bar{X})^2} \sum{(Y_i - \bar{Y})^2}}} \]
Где:
- \( r \) - коэффициент корреляции Пирсона,
- \( X_i \) и \( Y_i \) - значения переменных X и Y соответственно,
- \( \bar{X} \) и \( \bar{Y} \) - средние значения переменных X и Y.
Давайте рассмотрим пример на Python, чтобы лучше понять эту концепцию:
import numpy as np
Сгенерируем случайные данные:
X = np.random.randn(100)
Y = 2 * X + np.random.normal(0, 0.5, 100) # Y зависит от X с добавлением случайного шума
Вычислим средние значения X и Y:
mean_X = np.mean(X)
mean_Y = np.mean(Y)
Вычислим числитель и знаменатель формулы для коэффициента корреляции Пирсона:
numerator = np.sum((X - mean_X) * (Y - mean_Y))
denominator = np.sqrt(np.sum((X - mean_X)**2) * np.sum((Y - mean_Y)**2))
Вычислим коэффициент корреляции Пирсона:
correlation_coefficient = numerator / denominator
print("Коэффициент корреляции Пирсона:", correlation_coefficient)
В этом примере мы используем библиотеку NumPy для генерации случайных данных X и Y. Мы создаем зависимость между X и Y, умножая X на 2 и добавляя случайный шум. Затем мы вычисляем средние значения X и Y, а затем числитель и знаменатель формулы для коэффициента корреляции Пирсона. Наконец, мы вычисляем сам коэффициент и выводим его значение.
Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.
© Лена Капаца. Все права защищены.