T-критерий Стюдента (T-Test) - Лена Капаца
T-критерий Стюдента (T-Test) by Лена Капаца June 19, 2022 Статистика

T-критерий Стюдента (T-Test, T-критерий) — это статистический тест, который используется для сравнения Средних арифметических (Mean) двух групп. Он часто используется при проверке Нулевой гипотезы (Null Hypothesis), чтобы определить, например, действительно лечение влияет на группу пациентов.

T-Test можно использовать только при сравнении средних значений двух групп (так называемое попарное сравнение). Если вы хотите сравнить более двух групп или выполнить несколько попарных сравнений, используйте Дисперсионный анализ (ANOVA) или апостериорный тест.

Тест предполагает, что данные:

Если ваши данные не соответствуют этим предположениям, вы можете попробовать непараметрическую альтернативу t-критерию, например, Тест знаковых рангов Уилкоксона (Wilcoxon Signed-Rank Test) для данных с неравными Дисперсиями (Variance).

Какой тип T-теста следует использовать?

При выборе типа T-теста вам необходимо учитывать две вещи: относятся ли сравниваемые группы к одной Генеральной совокупности (Population) или к двум разным.

Одновыборочный, двухвыборочный или парный T-критерий? Если Выборки (Sample) берут начало из одной генеральной совокупности (например, измерение до и после экспериментального лечения), выполните Парный T-тест (Paired T-Test).

Если группы происходят из двух разных совокупностей (например, людей из двух разных городов), выполните Независимый T-тест (Independent T-Test).

Если есть одна группа, сравниваемая со стандартным значением (например, сравнивающая кислотность жидкости с нейтральным pH 7), выполните Одновыборочный T-тест (One-Sample T-Test).

Критерий Стьюдента: SciPy

Посмотрим, как библиотека SciPy рассчитывает значение критерия и что означают эти цифры. Для начала импортируем необходимые библиотеки:

import numpy as np
from scipy import stats

Возьмем за пример оценки студента за перый и второй семестр:

semester_1 = (45, 45, 45, 50, 55, 80)
semester_2 = (62, 55, 55, 65, 68, 70)

stats.ttest_ind(semester_1, semester_2)

Мы получаем ничто иное, как разность между средними арифметическими первой и второй выборок, равное ~1.099:

Ttest_indResult(statistic=1.099305186099593, pvalue=0.30361296704535845)

Теперь, определим Степени свободы (Degrees of Freedom): вычтем единицу из размера выборки (6 – 1 = 5). scipy.stats вежливо рассчитал для нас P-значение (P-Value) – вероятность появления экстремального Наблюдения (Observation) при условии истинности нулевой гипотезы.

Например, если p-значение составляет около 0,9, т. е. 90%, это указывает на то, что полученное T-значение с вероятностью является случайным наблюдением. С другой стороны, если p-значение составляет около 0,025, т. е. 2,5%, t-значение является значимым. В нашем случае, P-значение составляет около 30%, что означает неверность нулевой гипотезы "студент не спрогрессировал во втором семестре".

Ноутбук, не требующий дополнительной настройки на момент написания статьи, здесь.

Автор оригинальной статьи: scribbr.com

© Лена Капаца. Все права защищены.