Аннотация:
В докладе рассмотрены две оригинальные архитектуры глубоких нейронных сетей для решения задачи распознавания действий на видео. Анализируемые сети, в части экстракторов признаков, построены на основе 3D-сверточных слоёв. При этом строение классификаторов у сетей различается: в первом случае применены полносвязные слои, во-втором — GAP-слой. Задача решалась для 20-ти классов, с выраженными паттернами поведения. Использовался датасет Sports-1M. В контексте задачи, изучены вопросы качества и устойчивости функционирования представленных нейронных сетей.