Action Recognition

Inhaltsbasierten Videoanalyse

Handlungen und Aktionen von Personen sind ein wichtiger Teil von Spielfilmen und Videos. Die automatische Erkennung und Zuordnung dieser Aktionen ist eine wesentliche Komponente von Systemen zur inhaltsbasierten Videoanalyse. Typische Aktionen, die man in Videos beobachten kann sind z.B. »sich hinsetzen«, »sich die Hände schütteln«, »Auto fahren«, »sich küssen« sowie viele weitere andere Aktionen.

Vordergrunddetektionen
© Fraunhofer ITWM
Vordergrunddetektionen (»Poselets«) beschreiben die Pose einer Person und die Bewegung einzelner Körperteile über die Zeit.

Videoanalyse & Aktionserkennung

Merkmale modellieren Personen und Kontext

Für die zuverlässige Erkennung dieser Aktionen in Videos ist die Detektion der handelnden Person und die Analyse ihrer Bewegungen von zentraler Bedeutung. Aufgrund dieser Bewegungsanalyse kann man die Videoszene in Vorder- und Hintergrundbereiche aufteilen und diese separat beschreiben. Die gewonnenen Merkmale modellieren sowohl die Personen wie auch den Kontext der jeweiligen Szene. Zusätzlich beschreiben wir auch die Pose und Orientierung einer detektierten Person und ihre Veränderung über die Zeit.

Motion Saliency
© Fraunhofer ITWM
Detektierte Personen in Videos (Hollywood2 Benchmark). Rote Bereiche zeigen die Personen im Vordergrund. Dadurch kann die Videoszene eindeutig in Vorder- und Hintergrundbereiche zerlegt werden.