Deep-Learning-Techniken verwenden, um mögliche menschliche Aktivitäten in Videos zu lokalisieren

Anonim

Wenn ein Polizist beginnt, eine Hand im Verkehr zu heben, erkennen menschliche Fahrer, dass der Offizier ihnen signalisiert, aufzuhören. Aber Computer finden es schwieriger, die nächsten wahrscheinlichen Aktionen der Leute basierend auf ihrem aktuellen Verhalten auszuarbeiten. Nun hat ein Team von A * STAR-Forschern und -Kollegen einen Detektor entwickelt, mit dem sich in nahezu Echtzeit praktisch erkennen lässt, wo menschliche Handlungen in Videos stattfinden.

Die Bildanalysetechnologie muss die menschlichen Absichten besser verstehen, wenn sie in einer Vielzahl von Anwendungen eingesetzt werden soll, sagt Hongyuan Zhu, ein Informatiker am A * STAR-Institut für Infocomm-Forschung, der die Studie leitete. Fahrerlose Autos müssen in der Lage sein, Polizisten zu erkennen und ihre Handlungen schnell und genau zu interpretieren, um sicher zu fahren, erklärt er. Autonome Systeme könnten auch trainiert werden, um verdächtige Aktivitäten wie Kämpfen, Diebstahl oder Fallenlassen von gefährlichen Gegenständen zu erkennen und Sicherheitsbeamte zu alarmieren.

Computer sind dank der Deep-Learning-Techniken, die künstliche neuronale Netze zur Verarbeitung komplexer Bildinformationen verwenden, bereits sehr gut in der Lage, Objekte in statischen Bildern zu erkennen. Videos mit bewegten Objekten sind jedoch schwieriger. "Das menschliche Handeln in Videos zu verstehen, ist ein notwendiger Schritt, um intelligentere und freundlichere Maschinen zu bauen", sagt Zhu.

Frühere Methoden, um mögliche menschliche Handlungen in Videos zu lokalisieren, verwendeten keine tiefen Lernrahmen und waren langsam und fehleranfällig, sagt Zhu. Um dies zu überwinden, kombiniert der YoTube-Detektor des Teams zwei Arten von neuronalen Netzwerken parallel: ein statisches neuronales Netzwerk, das sich bereits bei der Verarbeitung von Standbildern als genau erwiesen hat, und ein wiederkehrendes neuronales Netzwerk, das typischerweise zur Verarbeitung von sich ändernden Daten für die Spracherkennung verwendet wird. "Unsere Methode ist die erste, die Erkennung und Tracking in einer tiefen Lern-Pipeline zusammenbringt", sagt Zhu.

Das Team testete YouTube auf mehr als 3.000 Videos, die routinemäßig in Computer-Vision-Experimenten verwendet werden. Sie berichten, dass sie bei der richtigen Erkennung potenzieller menschlicher Handlungen um etwa 20 Prozent bei Videos, die allgemeine Alltagsaktivitäten darstellen, und bei 6 Prozent bei Sportvideos überdurchschnittlich gut abschneidet. Der Detektor macht gelegentlich Fehler, wenn die Personen im Video klein sind oder wenn viele Personen im Hintergrund sind. Nichtsdestotrotz sagt Zhu: "Wir haben gezeigt, dass wir die meisten potenziellen menschlichen Aktionsregionen fast in Echtzeit erkennen können."

menu
menu