Тест на нормальность (Normality Test)

Тест на нормальность (Normality Test) by Лена Капаца Sept. 27, 2023 Статистика

Тест на нормальность – это статистический тест, который используется для определения, является ли распределение данных нормальным или нет. Нормальное распределение (Normal Distribution), является одним из наиболее распространенных типов распределения в статистике и характеризуется симметричным колоколообразным графиком.

Один из самых распространенных тестов на нормальность - тест Шапиро-Уилка (Shapiro-Wilk Test). Он определяет, насколько хорошо данные соответствуют нормальному распределению.

Коэффициент теста Шапиро-Уилка можно рассчитать следующим образом& Допустим, что у нас есть выборка исходных данных:

X = {1, 3, 2, 5, 4}

Шаг 1: Сортировка данных по возрастанию

X = {1, 2, 3, 4, 5}

Шаг 2: Рассчитываем коэффициенты W и a.

Для этого, сначала присваиваем порядковый номер каждому значению данных

X_rank = {1, 2, 3, 4, 5}

Затем рассчитываем значение статистики W:

W = 1 - ((∑(d_i)²) / (∑(x_rank,i - a)²))

где:

∑(d_i)² – сумма всех значений X, каждый из которых возведен в квадрат.
a – коэффициент, вычисляемый на основе количества элементов в выборке
x_{rank, i} – порядковые номер наблюдаемого значения

d_i – разницы между наблюдаемыми и средними значениями. Для нашей выборки d_i = {-2, -1, 0, 1, 2}, a = 0.375.

Тогда W = 1 - ((2² + 1² + 0² + 1² + 2²) / (10.2 - (5(0.375)²))) = 0.7

Шаг 3: Сравнение значения W с табличным значением

Для заданного уровня значимости и количества элементов в выборке можно определить табличное значение статистики Шапиро-Уилка. Если вычисленное значение W меньше табличного значения, то гипотеза о нормальности распределения не отвергается.
Например, для 5 элементов в выборке и уровня значимости 0,05 табличное значение равно 0,762. Таким образом, так как вычисленное значение W меньше табличного значения, мы не можем отвергнуть гипотезу о нормальности распределения данных.