Временная сегментационная сеть (TSN)
Автор: ••
Архитектура нейросети для распознавания событий в видео
TSN (Temporal Segment Networks) — это архитектура нейросети для распознавания действий в видео, предложенная в 2016 году.
Основная идея:
- Разбиение видео на сегменты — видео делится на N равных частей
- Выборка кадров — из каждого сегмента случайно выбирается один или несколько кадров
- Извлечение признаков — каждый кадр обрабатывается CNN-бэкбоном
- Консенсус — признаки со всех сегментов объединяются через функцию агрегации
- Классификация — объединённые признаки подаются на классификационную голову
Преимущества:
- Эффективно захватывает долгосрочные зависимости во времени
- Работает с разреженной выборкой кадров (не нужно обрабатывать каждый кадр)
- Относительно быстрый и легковесный по сравнению с 3D-свёртками