Веса (Weights) | Понятный ML

Параметры модели машинного обучения, которые определяют, насколько сильно входные данные влияют на итоговое предсказание

Веса (Weights) — это параметры Модели Машинного обучения, которые определяют, насколько сильно входные данные влияют на итоговое предсказание. Это числа, которые модель подбирает в процессе обучения, чтобы делать правильные прогнозы.

Интуитивный пример

Предположим, мы хотим предсказать стоимость квартиры. На цену могут влиять:

площадь
количество комнат
расстояние до центра

Цена = 5000 × площадь
      + 200000 × количество комнат
      - 10000 × расстояние до центра

Числа 5000, 200000, -10000 - это веса. Они показывают силу влияния каждого признака на результат.

Зачем нужны веса

Любая модель должна каким-то образом понять:

какие признаки важны
какие признаки менее важны
какие признаки вообще не влияют на результат.

Именно веса позволяют модели определить эту важность.

Пример: линейная регрессия

Для линейной регрессии модель выглядит так:

y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

где:

x — признаки;
w — веса;
b — смещение (bias).

Например:

Цена квартиры =
  5000 × площадь +
  200000 × комнаты +
  50000

Здесь:

5000 — вес площади;
200000 — вес количества комнат;
50000 — смещение.

Если вес большой, сигнал усиливается. Если вес близок к нулю, влияние практически исчезает. Если вес отрицательный, сигнал оказывает обратное влияние.

В начале обучения веса обычно случайны, например:

0.37
-0.12
1.05

Затем модель:

делает предсказание
вычисляет ошибку
изменяет веса
повторяет процесс несколько раз.

Постепенно веса начинают отражать реальные закономерности данных.

Если модель выучила данные, на практике это означает, что она нашла набор весов, который хорошо описывает обучающую выборку.

Количество весов зависит от размера модели.

Примеры:

Модель	Количество весов
Линейная регрессия	десятки или сотни
Небольшая нейросеть	тысячи
ResNet-50	около 25 млн
GPT-2	около 1,5 млрд
Современные LLM	десятки и сотни миллиардов

Почему большие веса не всегда лучше

Иногда очень большие веса являются признаком проблемы, например:

переобучения;
мультиколлинеарности;
плохой нормализации данных.

Поэтому многие методы регуляризации специально ограничивают рост весов. Это методы регуляризации штрафуют модель за слишком большие веса:

L1-регуляризация (Lasso)
L2-регуляризация (Ridge)
Weight Decay