График квантиль-квантиль — это графический инструмент в статистике, который используется для оценки того, следует ли набор данных определенному теоретическому распределению. Он сравнивает квантили наблюдаемых данных с квантилями определенного распределения. Графики Q-Q особенно полезны для визуального выявления отклонений от нормальности.
Изображение: tjmahr.com
Это точечная диаграмма, созданная путем сопоставления двух наборов Квантилей (Quantile) друг с другом. Если оба набора квантилей происходят из одного и того же распределения, мы должны увидеть точки, образующие примерно прямую линию.
Давайте рассмотрим, как создать график Q-Q на Python, используя популярную библиотеку statsmodels.
!pip install statsmodels
Теперь создадим график Q-Q для образцового набора данных с использованием следующего кода Python:
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
Сгенерируем образцовый набор данных:
np.random.seed(42)
data = np.random.normal(loc=0, scale=1, size=1000)
Создадим график Q-Q:
sm.qqplot(data, line='s') # 's' для стандартизированной линии
plt.title('График квантиль-квантиль')
plt.show()
В этом примере мы создаем случайный набор данных из 1000 элементов из стандартного нормального распределения. А аргумент s указывает на стандартизированную линию.
Если точки на графике Q-Q тесно следуют прямой линии, это говорит о том, что данные соответствуют предполагаемому распределению (в данном случае стандартному нормальному). Любые отклонения или закономерности на графике могут указывать на отклонения от нормальности. Это, в свою очередь, характеризует применимость данных к загрузке в модель.
Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь: https://colab.research.google.com/drive/1kizJN04-BPfMjrUZ8aWbXhf6ik70BU28?usp=sharing
© Лена Капаца. Все права защищены.