Степени свободы (Degrees of Freedom)

Автор:

Количество независимых значений в данных, которые могут изменяться без нарушения заданных ограничений.

Степени свободы (Degrees of Freedom, DoF) — это количество независимых значений в данных, которые могут изменяться без нарушения заданных ограничений. Степень свободы показывает, сколько значений можно выбрать произвольно, прежде чем остальные значения окажутся определены автоматически.

Пример. Предположим, есть три числа, среднее значение которых должно быть равно 10. Пусть первые два числа мы выбрали сами:

8, 12, ?

Чтобы среднее осталось равным 10:

(8 + 12 + x) / 3 = 10

Третье число уже нельзя выбрать произвольно:

x = 10

Получается:

  • первое число свободно;
  • второе число свободно;
  • третье определяется ограничением.

Поэтому число степеней свободы равно:

3 - 1 = 2

Степени свободы в статистических тестах

Многие статистические критерии используют степени свободы:

  • t-тест
  • χ²-тест
  • ANOVA
  • F-тест и проч.

Например, для одновыборочного t-теста:

DoF = n - 1

Для двух независимых выборок:

DoF = n₁ + n₂ - 2

От числа степеней свободы зависит форма распределения статистики и критические значения теста.

Связь с переобучением

В машинном обучении понятие степеней свободы связано со сложностью модели.
Например:

  • линейная регрессия с двумя признаками имеет меньше степеней свободы;
  • глубокая нейросеть с миллионами параметров имеет гораздо больше степеней свободы.

Чем больше степеней свободы у модели, тем лучше она может подстроиться под данные и тем выше риск переобучения. Поэтому иногда говорят, что степень свободы отражает гибкость модели.

Степени свободы и количество параметров

Во многих задачах степень свободы можно приблизительно понимать как:

число наблюдений − число оцениваемых параметров

Например:

НаблюденийПараметровСтепеней свободы
100298
1001090
1005050

Чем больше параметров используется, тем меньше остаётся информации для оценки ошибки модели.