Временная сегментационная сеть (TSN)

Автор:

Архитектура нейросети для распознавания событий в видео

TSN (Temporal Segment Networks) — это архитектура нейросети для распознавания действий в видео, предложенная в 2016 году.

Основная идея:

  1. Разбиение видео на сегменты — видео делится на N равных частей
  2. Выборка кадров — из каждого сегмента случайно выбирается один или несколько кадров
  3. Извлечение признаков — каждый кадр обрабатывается CNN-бэкбоном
  4. Консенсус — признаки со всех сегментов объединяются через функцию агрегации
  5. Классификация — объединённые признаки подаются на классификационную голову

Преимущества:

  • Эффективно захватывает долгосрочные зависимости во времени
  • Работает с разреженной выборкой кадров (не нужно обрабатывать каждый кадр)
  • Относительно быстрый и легковесный по сравнению с 3D-свёртками