Deinen Fernseher dazu bringen, dich besser zu verstehen

Anonim

Neue Forschungsergebnisse von der University of Waterloo haben einen Weg gefunden, die Sprachabfragefunktionen von Home-Entertainment-Plattformen zu verbessern.

Die Forschung in Zusammenarbeit mit der University of Maryland und dem Comcast Applied AI Research Lab nutzt künstliche Intelligenz (KI), um die natürlichsten sprachbasierten Interaktionen mit Fernsehern zu erreichen.

"Heute haben wir uns daran gewöhnt, mit intelligenten Agenten zu sprechen, die unser Angebot erfüllen - von Siri auf dem Handy bis Alexa zu Hause. Warum sollten wir es nicht auch mit Fernsehern schaffen?" fragte Jimmy Lin, Professor an der University of Waterloo und David R. Cheriton Chair an der David R. Cheriton School of Computer Science.

"Comcast Xfinity X1 zielt darauf ab, genau das zu tun - die Plattform kommt mit einer" Voice Remote ", die gesprochene Abfragen akzeptiert. Ihr Wunsch ist ihr Befehl-sagen Sie Ihrem TV Kanal wechseln, fragen Sie nach freien Kinderfilme und sogar über das Wetter Prognose."

Um das komplexe Problem des Verständnisses von Sprachabfragen zu lösen, hatten die Forscher die Idee, die neueste KI-Technologie - eine Technik, die als hierarchische rekurrente neuronale Netze bekannt ist - zu nutzen, um den Kontext besser zu modellieren und die Genauigkeit des Systems zu verbessern.

Im Januar 2018 wurde das neue neuronale Netzwerkmodell der Forscher in der Produktion eingesetzt, um Anfragen von echten Live-Nutzern zu beantworten. Im Gegensatz zum vorherigen System, das von ungefähr acht Prozent der Abfragen verwechselt wurde, verarbeitet das neue Modell die meisten der sehr komplizierten Abfragen entsprechend, was die Benutzerfreundlichkeit erheblich verbessert.

"Wenn ein Zuschauer nach, Chicago Fire 'fragt, was sowohl eine Dramaserie als auch eine Fußballmannschaft betrifft, ist das System in der Lage zu entschlüsseln, was Sie wirklich wollen", sagte Lin. "Das Besondere an diesem Ansatz ist, dass wir den Kontext - wie zuvor angesehene Shows und Lieblingskanäle - nutzen, um Ergebnisse zu personalisieren und dadurch die Genauigkeit zu erhöhen."

Die Forscher haben begonnen, ein noch reicheres Modell zu entwickeln. Die Intuition besteht darin, dass das System durch die Analyse von Abfragen aus verschiedenen Perspektiven besser verstehen kann, was der Betrachter sagt.

Der Vortrag Multi-Task Learning with Neural Networks for Voice Query Understanding Entertainment Platform wurde auf der 24. ACM SIGKDD International Konferenz zum Thema Knowledge Discovery & Data Mining vorgestellt, die kürzlich in Großbritannien stattfand. Die Forschung wurde von Jinfeng Rao, einem Ph.D. Absolvent der University of Maryland, sein Berater Lin und Mentor Ferhan Ture, ein Forscher am Comcast Applied AI Research Lab.

menu
menu