"Deepfake" -Videos im Handumdrehen erkennen

Anonim

Eine neue Form der Fehlinformation wird sich in Online-Communities ausbreiten, wenn die mittelfristigen Wahlkampagnen 2018 aufheizen. Genannt "deepfakes" nach dem pseudonymen Online-Konto, das die Technik populär machte - die ihren Namen vielleicht gewählt haben, weil der Prozess eine technische Methode namens "Deep Learning" verwendet - diese gefälschten Videos sehen sehr realistisch aus.

Bislang haben die Leute Deepfake-Videos in Pornographie und Satire verwendet, um zu zeigen, dass berühmte Leute Dinge tun, die sie normalerweise nicht tun würden. Aber es ist fast sicher, dass DeepFakes während der Kampagne Saison erscheinen werden, vorgeblich, Kandidaten darzustellen, die Dinge sagen oder Orte gehen, die der echte Kandidat nicht tun würde.

Da diese Techniken so neu sind, haben die Leute Schwierigkeiten, den Unterschied zwischen echten Videos und den Deepfake-Videos zu erkennen. Meine Arbeit, mit meinem Kollegen Ming-Ching Chang und unserem Ph.D. Student Yuezun Li, hat einen Weg gefunden, um echte Videos aus Deepfake-Videos zuverlässig zu erzählen. Es ist keine dauerhafte Lösung, denn die Technologie wird sich verbessern. Aber es ist ein Anfang und bietet Hoffnung, dass Computer den Menschen helfen können, die Wahrheit aus der Fiktion zu erzählen.

Was ist ein Deepfake?

Das Erstellen eines Deepfake-Videos ähnelt dem Übersetzen zwischen Sprachen. Services wie Google Translate nutzen maschinelles Lernen - Computeranalyse von Zehntausenden von Texten in mehreren Sprachen - um Wörter zu erkennen, mit denen sie die Übersetzung erstellen.

Deepfake-Algorithmen funktionieren auf die gleiche Weise: Sie verwenden eine Art maschinelles Lernsystem, das als tiefes neuronales Netzwerk bezeichnet wird, um die Gesichtsbewegungen einer Person zu untersuchen. Dann synthetisieren sie Bilder des Gesichts einer anderen Person, die analoge Bewegungen machen. Dadurch wird effektiv ein Video der Zielperson erstellt, das scheinbar die Dinge tut oder sagt, die die Quellperson getan hat.

Bevor sie richtig arbeiten können, benötigen tiefe neuronale Netze viele Quelleninformationen, wie zum Beispiel Fotos von Personen, die die Quelle oder das Ziel von Identitätswechsel sind. Je mehr Bilder verwendet werden, um einen Deepfake-Algorithmus zu trainieren, desto realistischer wird der digitale Identitätswechsel.

Blinkt erkennen

Es gibt immer noch Mängel in diesem neuen Typ von Algorithmus. Einer von ihnen hat damit zu tun, wie die simulierten Gesichter blinken - oder nicht. Gesunde erwachsene Menschen blinken irgendwo zwischen 2 und 10 Sekunden und ein einzelnes Blinken dauert zwischen einem Zehntel und vier Zehntelsekunden. Das wäre normal, wenn man in einem Video von einer sprechenden Person sieht. Aber das passiert nicht in vielen DeepFake-Videos.

Wenn ein Deepfake-Algorithmus auf Gesichtsbilder einer Person trainiert wird, ist er abhängig von den Fotos, die im Internet verfügbar sind und die als Trainingsdaten verwendet werden können. Selbst für Menschen, die oft fotografiert werden, sind nur wenige Bilder online, die ihre Augen geschlossen zeigen. Solche Bilder sind nicht nur selten - weil die Augen der Menschen die meiste Zeit offen sind -, sondern Fotografen veröffentlichen normalerweise keine Bilder, bei denen die Augen der Hauptpersonen geschlossen sind.

Ohne Bilder von blinkenden Menschen zu lernen, erzeugen Deepfake-Algorithmen weniger Gesichter, die normal blinken. Wenn wir die Gesamtrate des Blinzelns berechnen und diese mit der natürlichen Reichweite vergleichen, haben wir festgestellt, dass Charaktere in Deepfake-Videos im Vergleich zu realen Personen viel seltener blinken. Unsere Forschung nutzt maschinelles Lernen, um das Öffnen und Schließen von Augen in Videos zu untersuchen.

Dies gibt uns eine Inspiration, Deepfake-Videos zu erkennen. Anschließend entwickeln wir eine Methode, um zu erkennen, wann die Person im Video blinkt. Um genauer zu sein, scannt er jeden Frame eines fraglichen Videos, erkennt die Gesichter darin und lokalisiert dann automatisch die Augen. Es nutzt dann ein anderes tiefes neuronales Netzwerk, um zu bestimmen, ob das erkannte Auge offen oder nah ist, wobei das Aussehen, die geometrischen Merkmale und die Bewegung des Auges verwendet werden.

Wir wissen, dass unsere Arbeit einen Fehler in der Art der verfügbaren Daten nutzt, um Deepfake-Algorithmen zu trainieren. Um nicht einem ähnlichen Fehler zu verfallen, haben wir unser System auf eine große Bibliothek von Bildern von offenen und geschlossenen Augen trainiert. Diese Methode scheint gut zu funktionieren, und als Ergebnis haben wir eine Erkennungsrate von über 95 Prozent erreicht.

Dies ist natürlich nicht das letzte Wort bei der Entdeckung von Deepfakes. Die Technologie verbessert sich rasant und der Wettbewerb zwischen der Erzeugung und dem Aufspüren gefälschter Videos ist analog zu einem Schachspiel. Insbesondere kann zu Deepfake-Videos ein Blinzeln hinzugefügt werden, indem Gesichtsbilder mit geschlossenen Augen aufgenommen werden oder Videosequenzen für das Training verwendet werden. Leute, die die Öffentlichkeit verwirren wollen, werden besser darin, falsche Videos zu machen - und wir und andere in der Technologie-Community müssen weiterhin Wege finden, sie zu entdecken.

menu
menu