Федеративное обучение (Federated Learning)

Автор:

Подход к обучению моделей, при котором данные не покидают устройство или организацию, а модель обучается распределённо, получая только обновления параметров.

Федеративное обучение (Federated Learning)** — это подход к обучению моделей, при котором данные не покидают устройство или организацию, а модель обучается распределённо, получая только обновления параметров.

Классический подход в машинном обучении выглядит так:

  • все данные собираются в одном месте
  • очищаются и объединяются
  • на них обучается модель

Это удобно, но создаёт проблемы:

  • нарушение приватности
  • юридические ограничения
  • риски утечек данных
  • сложность объединения данных из разных источников

Федеративное обучение предлагает альтернативу:

  • данные остаются локально
  • обучение происходит распределённо
  • центральный сервер агрегирует только обновления модели

Как работает федеративное обучение

Типичный процесс выглядит так:

  • центральный сервер инициализирует модель
  • модель отправляется на устройства (клиенты)
  • на каждом устройстве модель обучается на локальных данных
  • устройства отправляют обновления (градиенты или веса)
  • сервер агрегирует обновления и обновляет глобальную модель
  • процесс повторяется

Важно:

  • исходные данные никогда не передаются
  • передаются только параметры модели

Где применяется федеративное обучение

  • мобильные устройства (например, предиктивный ввод текста)
  • медицина (обучение на данных разных клиник)
  • финансы (данные банков)
  • IoT и сенсоры
  • корпоративные данные, которые нельзя объединять

Преимущества

  • защита приватности пользователей
  • соответствие требованиям законодательства
  • возможность обучаться на распределённых данных
  • снижение риска утечек

Ограничения

  • сложная инфраструктура
  • неоднородные данные (разные распределения на клиентах)
  • нестабильные соединения
  • сложность отладки
  • риск восстановления данных из градиентов

Федеративное обучение и приватность

Федеративное обучение часто комбинируется с шифрованием (secure aggregation). Это дополнительно защищает данные от утечек.

Обучение современных LLM

Сегодня большинство крупных моделей (LLM) обучаются на огромных корпусах данных, собранных из интернета. На практике это вызывает ряд проблем:

  • данные собираются без явного согласия авторов
  • используются тексты, защищённые авторским правом
  • сложно отследить источники данных
  • возникают юридические и этические вопросы

Фактически:

  • модели обучаются централизованно
  • данные агрегируются в одном месте
  • контроль над происхождением данных ограничен

Как федеративное обучение могло бы изменить ситуацию

Федеративное обучение предлагает альтернативную модель:

  • данные остаются у владельцев (пользователей, компаний, платформ)
  • модель обучается «на месте»
  • передаются только обновления, а не сами данные

Почему это пока не стало стандартом для LLM

Несмотря на преимущества, есть серьёзные ограничения:

  • обучение LLM требует огромных вычислительных ресурсов
  • сложно синхронизировать миллионы участников
  • качество данных сильно различается
  • трудно контролировать обучение и предотвращать атаки
  • инфраструктура крайне сложна

Кроме того централизованное обучение проще и быстрее, экономические стимулы пока на стороне крупных компаний.