Video Detection & Retrieval

Kurzbeschreibung

Unsere Abteilung hat zusammen mit Projektpartnern vom Bayerischen Rundfunk und der Firma AVID eine automatische Videodetektion entwickelt, mit der man die Szenen einzelner Video-Clips in Fernsehsendungen finden kann.

Projektbeschreibung

Rundfunkanstalten, wie der Bayerische Rundfunk, besitzen sehr viele Video-Clips in unterschiedlichen Fassungen. Diese Videos werden für die Produktion von Fernsehsendungen verwendet. Dabei wird oftmals nur ein bestimmter Teil der Video-Clips in die Fernsehsendung übernommen: Szenen werden gekürzt und die Reihenfolge einzelner Abschnitte ändert sich gelegentlich. Auch Veränderungen auf Bildebene sind dabei oft üblich. Beispiele hierfür sind das Einblenden von Logos und Bauchblenden. Zusätzlich wird oft die Auflösung, das Seitenverhältnis, Farbe, Kontrast, sowie die Schärfe der Videos geändert.

Ein Video-Clip kann bei der Bearbeitung auch eine Reihe komplexer Transformationen durchlaufen, z.B. bei der Projektion auf eine Leinwand in einem virtuellen Studio mit Hilfe der sog. Bluescreen-Technik. Dies ist inzwischen häufig bei Nachrichtensendungen der Fall. Diese Veränderungen erschweren einen automatischen Abgleich zwischen der Originalfassung eines Video-Clips und der entsprechenden Fernsehfassung enorm.

© Fraunhofer ITWM
Detektion von Szenen einzelner Video-Clips in einer Fernsehsendung

Metadaten helfen bei Zuordnung

Die Video-Clips sind in der Regel mit Metadaten verknüpft, die es erlauben, mit einfachen Datenbankabfragen eine Zuordnung zwischen den Video-Clips und den entsprechenden Fernsehsendungen zu erzeugen. Allerdings fehlt hierbei eine präzise Lokalisierung: Man ermittelt auf diese Weise lediglich, welche Video-Clips eventuell in der Fernsehsendung zu sehen sind. Es ist aber völlig unklar, welche Szenen und Abschnitte übernommen wurden und wo genau sich diese befinden. Diese Informationen sind aber sehr wichtig, um genau nachverfolgen zu können, welches Videomaterial in der Sendung verwendet wurde.

Für dieses Problem haben wir zusammen mit unseren Projektpartnern vom Bayerischen Rundfunk und der Firma AVID eine zuverlässige Lösung entwickelt. Unser Verfahren detektiert die entsprechenden Videoszenen in den Fernsehsendungen, selbst dann, wenn das ursprüngliche Videomaterial durch Videoschnitt und Videobearbeitung verändert wurde. Unsere Software ist beim Bayerischen Rundfunk bereits produktiv im Einsatz.

Detektionsergebnisse

Unser Verfahren ist robust gegenüber

Verpixelungen
Kompressionsartefakten (»low quality video«)
Farb- und Kontraständerungen
affinen und perspektivischen Transformationen (»camcording«)
lokalen Störungen und Deformationen
dem Einfügen von Mustern (Logos, Bauchblenden)

In der nachfolgenden Abbildung sieht man einige Detektionsergebnisse. Trotz der teilweise sehr starken Veränderungen ist unser Verfahren in der Lage, die entsprechenden Videoszenen zu detektieren und die einzelnen Videoframes richtig zuzuordnen. Einige weitere Beispiele sind in der Animation am Anfang dieser Seite zu sehen.

Technischer Hintergrund

Videos bestehen aus hunderttausenden von Einzelframes. Ein Abgleich jedes einzelnen Videoframes ist in der Regel sehr aufwendig und verbraucht viele Ressourcen. Deshalb reduzieren wir die Datenmenge, in dem wir nur eine geringe Anzahl exemplarischer Videoframes betrachten, sog. Keyframes. Bei der Auswahl dieser Keyframes analysieren wir die Bewegungsabläufe in den Videos mit Hilfe des sog. optischen Flusses. Die Keyframes werden dann anhand markanter Bewegungsabläufe ausgewählt. In der Praxis werden so nur ca. 0.5% bis 1.5% der Frames in einem Video ausgewählt.

Kompakte Indexstruktur beschreibt Keyframes

Damit die gefundenen Keyframes effizient miteinander verglichen werden können, wird jedes Keyframe durch eine sehr kompakte Indexstruktur beschrieben. Dazu werden zunächst hochdimensionale Merkmalsvektoren (VLAD oder Fishervektoren) erzeugt und diese dann anschliessend auf niedrigdimensionale Vektoren projeziert. Dabei werden nur die im jeweiligen Kontext aussagekräftigsten Merkmale beibehalten. Dies ermöglicht einen schnellen Abgleich vieler Keyframes. Dabei setzen wir auch sog. Query-Expansion und Reranking-Methoden ein. Zeitlich zusammenhängende Videosegmente werden durch Clustering identifiziert.

Bildvergleichsverfahren überprüft Frames

In einem letzten Schritt werden die zugeordneten Frames mit einem Bildvergleichsverfahren überprüft. Dadurch werden falsch zugeordnete oder schlecht lokalisierte Zuordnungen entfernt. Dies ist notwendig, um eine framegenaue Präzision zu gewährleisten. Dabei setzen wir ein »state of the art«-Verfahren ein, welches im Vergleich zu vielen anderen Standardverfahren deutlich bessere Ergebnisse erzielt. In der nachfolgenden Abbildung ist ein Beispiel zu sehen.

Unsere Software kann unter Windows und Linux eingesetzt werden.

Projektpartner

Bayerischer Rundfunk
AVID

Matchingverfahren — © Fraunhofer ITWM
Links sieht man das Ergebnis unseres Verfahrens, rechts ein häufig verwendetes Standardverfahren. Bei dem Vergleich der Bilder werden lokale Übereinstimmungen mit einer orangen Linie visualisiert.