Google: Künstliche Intelligenz kann einzelne Stimmen in einer Menschenmenge erkennen

Wenn Menschen mehrere Stimmen gleichzeitig hören, ist es meist relativ einfach diese voneinander zu unterscheiden. Genau mit dieser Herausforderungen haben Stimmerkennungen noch zu kämpfen. Sind mehrere Personen im Raum, fällt es zum Beispiel Alexa sichtlich schwer, die eigentliche Frage zu verstehen und die korrekte Antwort zu geben. Google hat auf seinem Research Blog nun eine Technik vorgestellt, die in der Lage ist, genau diese Aufgabe zu bewältigen.

Dahinter steckt ein Deep-Learning-System, welches spezifische Stimmen erkennen kann, vorausgesetzt es sieht die Gesichter der sprechenden Personen. Das Team trainierte ein neuronales Netz mit verschiedenen gestellten Szenarien, bei denen mehrere Personen sichtbar sprechen und Hintergrundgeräusche präsent waren. Damit konnte die KI lernen, wie man die Stimmen voneinander trennt und in separate Tracks einteilt. Das Ergebnis ist gleichermaßen bemerkenswert wie unheimlich und wird in den folgenden Videos demonstriert:

Google schaut sich gerade an, wie man die Technik in seinen Produkten nutzen kann. Am naheliegendsten ist der Einsatz zur Transkription von YouTube-Videos und Co., was ebenfalls ziemlich gut funktioniert:

Ohne Google etwas Schlechtes unterstellen zu wollen, wissen wir dennoch, dass auch das US-Militär Googles KI-Technologien benutzt. Das wäre dann ein prima Beispiel, um die Überwachung und das Mithören von Gesprächen in Gruppen besser zu machen.

-> Zum Beitrag Google: Künstliche Intelligenz kann einzelne Stimmen in einer Menschenmenge erkennen

-> Zum Blog Caschys Blog

Unser Feedsponsor:


Danke: geek o vation

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies
Beaktiv @ 2016