Adam - Лена Капаца

Adam by Лена Капаца Sept. 27, 2023 Продвинуто

Adam (Adaptive Moment Estimation – Адаптивная оценка момента) – один из самых популярных алгоритмов для дообучения Нейронных сетей (NN). Он был разработан в 2015 году на основе двух других методов – RMSprop и AdaGrad.

Чем короче траектория, тем эффективнее метод регуляризации

Как и большинство методов Градиентного спуска (Gradient Descent), Adam может оказаться неэффективным, если параметры модели начнут сильно колебаться в процессе обучения. Для решения этой проблемы было разработано несколько методов Регуляризации (Regularization), которые помогают справиться с этой проблемой без использования других методов.

Одним из таких методов являются L1 и L2. Они основываются на добавлении нормы весов в функцию потерь, что заставляет модель быть более гладкой, уменьшая различия значений между весами. L1-регуляризация добавляет абсолютную норму весов, а L2-регуляризация добавляет в функцию потерь квадрат нормы весов.

Adam регуляризация добавляет L2-регуляризацию в обновление весов в каждом шаге.

Однако, часто применяют более продвинутые формы AdamW, в которых введены дополнительные коэффициенты регуляризации, чтобы балансировать L2-регуляризацию существующей функцией оптимизации.

Давайте посмотрим на пример кода оптимизатора AdamW с использованием библиотеки PyTorch для обучения классификационной модели на наборе данных CIFAR-10.

import torch.optim as optim
from torch.optim import lr_scheduler

# Define your neural network architecture

model = Net()

# Define the optimizer

optimizer = optim.AdamW(model.parameters(), lr=0.001, weight_decay=1e-5)

# Define the learning rate scheduler

scheduler = lr_scheduler.StepLR(optimizer, step_size=7, gamma=0.1)

# Train the model

for epoch in range(num_epochs):

    # Train the model and update the optimizer
    
    for data, target in train_loader:
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()

    # Update the learning rate scheduler
    
    scheduler.step()

    # Evaluate the model on validation set
    
    validate(model, val_loader)

Этот пример демонстрирует, как определить архитектуру модели, определить оптимизатор и регуляризацию AdamW, использовать обучающий процесс и проверку с помощью функции потерь и валидации. Вы также можете использовать lr_scheduler для изменения скорости обучения в зависимости от количества эпох.

В целом, метод Adam является мощным инструментом для улучшения производительности нейронных сетей во время обучения на больших наборах данных.

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Автор кода: project.pro