Недообучение (Underfitting)
Ситуация, когда модель машинного обучения слишком плохо изучила закономерности в данных и не способна делать качественные предсказания даже на обучающей выборке.
Недообучение (Underfitting) — это ситуация, когда модель машинного обучения слишком плохо изучила закономерности в данных и не способна делать качественные предсказания даже на обучающей выборке. Модель слишком простая или недостаточно обученная, чтобы понять структуру данных, и в результате она ошибается как на обучающих данных, так и на новых данных.
Как выглядит недообучение
Представим задачу прогнозирования цены квартиры. На стоимость влияют:
- площадь;
- район;
- количество комнат;
- возраст дома;
- инфраструктура.
Если использовать слишком простую модель, которая учитывает только площадь, она не сможет уловить большинство закономерностей. В итоге прогнозы будут неточными практически для всех объектов.
Главный признак Underfitting — при недообучении ошибки велики одновременно:
- на обучающей выборке;
- на валидационной выборке;
- на тестовой выборке.
Например:
| Метрика | Значение |
|---|---|
| Train Accuracy | 60% |
| Validation Accuracy | 58% |
Разница между метриками небольшая, но обе они низкие. Это говорит о том, что проблема не в переобучении, а в том, что модель в целом плохо решает задачу.
Почему возникает недообучение
- Слишком простая модель: она может не обладать достаточной сложностью для описания данных.
- Недостаточное обучение: даже хорошая модель может оказаться недообученной, если обучение остановилось слишком рано.
- Слишком сильная регуляризация: регуляризация помогает бороться с переобучением, но её избыток может привести к обратному эффекту.
- Неподходящие признаки: если признаки не содержат полезной информации, модель просто не сможет найти закономерности.
- Неправильный Learning Rate: слишком большая LR может мешать модели сходиться к хорошему решению.
Недообучение и переобучение
Недообучение часто рассматривают вместе с переобучением. Переобучение — это:
- модель слишком сложная;
- низкая ошибка на обучении;
- высокая ошибка на тесте