Тест на нормальность – это статистический тест, который используется для определения, является ли распределение данных нормальным или нет. Нормальное распределение (Normal Distribution), является одним из наиболее распространенных типов распределения в статистике и характеризуется симметричным колоколообразным графиком.
Один из самых распространенных тестов на нормальность - тест Шапиро-Уилка (Shapiro-Wilk Test). Он определяет, насколько хорошо данные соответствуют нормальному распределению.
Коэффициент теста Шапиро-Уилка можно рассчитать следующим образом& Допустим, что у нас есть выборка исходных данных:
X = {1, 3, 2, 5, 4}
X = {1, 2, 3, 4, 5}
Для этого, сначала присваиваем порядковый номер каждому значению данных
Xrank = {1, 2, 3, 4, 5}
Затем рассчитываем значение статистики W:
W = 1 - ((∑(di)2) / (∑(xrank,i - a)2))
где:
∑(di)2 – сумма всех значений X, каждый из которых возведен в квадрат.
a – коэффициент, вычисляемый на основе количества элементов в выборке
xrank, i – порядковые номер наблюдаемого значения
di – разницы между наблюдаемыми и средними значениями. Для нашей выборки di = {-2, -1, 0, 1, 2}, a = 0.375.
Тогда W = 1 - ((22 + 12 + 02 + 12 + 22) / (10.2 - (5(0.375)2))) = 0.7
Для заданного уровня значимости и количества элементов в выборке можно определить табличное значение статистики Шапиро-Уилка. Если вычисленное значение W меньше табличного значения, то гипотеза о нормальности распределения не отвергается.
Например, для 5 элементов в выборке и уровня значимости 0,05 табличное значение равно 0,762. Таким образом, так как вычисленное значение W меньше табличного значения, мы не можем отвергнуть гипотезу о нормальности распределения данных.
© Лена Капаца. Все права защищены.