Automatische Übersetzung und Synchronisierung auf YouTube
YouTube synchronisiert seit ein paar Monaten manche Videos automatisch in eine andere Sprache. Damit wird die Audiospur von Videos automatisch übersetzt und mit einer KI-Stimme ersetzt. Als Zuschauer kann man dann im Menü (Zahnrad) unter „Audiospur“ die Sprache des Videos ändern. Die Verbreitung der Funktion und die Anzahl der dieser Videos steigt jeden Tag, und dennoch hält sich die Zahl der auf diese Art synchronisierten Videos in Grenzen. Viele Nutzer der Videoplattform sind nicht begeistert von dieser Funktion. Woran liegt das?
Inhaltsverzeichnis
Warum übersetzt man Videos?
Wenn wir Videos veröffentlichen haben wir in der Regel das Ziel, eine möglichst große Zuschauerschaft zu erreichen. Hierbei stellen die vielen existierenden Sprachen oftmals ein Problem dar und international tätige Unternehmen müssen sich überlegen, wie sie dieses Problem lösen. Eine häufig genutzte Lösung sind Untertitel, die passend zur Tonspur im Bild angezeigt werden. Diese lassen sich entweder fest im Video einbetten oder, wie bei den meisten Videos auf YouTube, per Mausklick auswählen und in einer passenden Sprache einblenden.
Wie übersetzt man Videos?
Untertitel kann man als Creator bei YouTube entweder automatisch generieren lassen oder manuell als Textdatei einfügen. YouTube bietet zusätzlich die Funktion an, Untertitel in andere Sprachen zu übersetzen. Letztendlich entscheidet dann der Zuschauer, ob er Untertitel sehen möchte und falls ja, in welcher der verfügbaren Sprachen.
Die neue Funktion ist eine Art Verbesserung oder Steigerung dieser Funktionalität. Die Übersetzung der Untertitel wird von einer computergenerierten Stimme „eingesprochen“ und synchronisiert. Die Originalstimme wird aus der Audiospur des Videos gefiltert und ist nicht mehr hörbar. Das funktioniert übrigens auch in mehreren Sprachen.
ℹ️ Die Funktion ist aktuell jedoch noch nicht für jeden Kanal verfügbar und gilt auch nur für neu hochgeladene Videos. Weitere Informationen über die Nutzung gibt es in der YouTube-Hilfe.
Wie gut ist die automatische YouTube Synchronisierung?
Die grundlegende Funktionsweise – Übersetzung und Synchronisierung – funktioniert in den meisten Fällen relativ zuverlässig. Es werden meist korrekte Übersetzungen geliefert und die Synchronisierung zwischen Bild und Ton bzw. originaler und übersetzter Audiospur funktioniert in den allermeisten Fällen. Hierbei kann auch zwischen mehreren Sprecherinnen und Sprechern unterschieden werden, wobei es aktuell nur je eine männliche und eine weibliche Stimme gibt. Vereinzelt kann es aber auch passieren, dass eine im Original männliche Stimme von der weiblichen Computerstimme synchronisiert wird oder andersherum. Es gibt allerdings noch weitere Punkte, über die man sich vor der Nutzung der Funktion Gedanken machen sollte:
Durch automatische Synchronisierung können Informationen weltweit besser zugänglich gemacht werden. Allerdings können nicht alle Videos erfolgreich oder korrekt synchronisiert werden. Derzeit werden der Tonfall und die Emotionen des ursprünglichen Audiotracks nicht auf die Synchronisation übertragen. Daher funktioniert die Funktion besser bei Inhalten, die nicht auf Expressivität beruhen. Synchronisierte Audiotracks werden automatisch erzeugt und können aufgrund von Aussprachefehlern, Akzenten, Dialekten oder Hintergrundgeräuschen im Originalvideo Fehler enthalten.
YouTube Hilfe
Hintergrundmusik wird teilweise auch synchronisiert
(Hintergrund-)Musik ist ein wichtiger Bestandteil von Filmen und Videos. Sie beeinflusst die Stimmung, die ein Video transportiert, maßgeblich und ein Clip kann mit zwei unterschiedlichen Songs hinterlegt zwei gänzlich verschiedene Wirkungen haben.
Deshalb ist das Ziel bei einer Synchronisierung, die originale Stimmung möglichst wenig zu beeinflussen und auch die Hintergrundmusik nicht zu verändern. Wenn man Hintergrundmusik ohne Gesang verwendet funktioniert das bei der neuen YouTube Funktion auch recht gut. Es kann aber vorkommen, dass die Hintergrundmusik ebenfalls übersetzt und synchronisiert wird. Das führt in der Regel zu Verwirrung beim Zuschauer und sorgt dafür, dass plötzlich Inhalte erzählt werden, die mit dem eigentlichen Inhalt des Videos nichts zu tun haben. Ein gutes Beispiel dafür ist das folgende Video wo ich empfehle, die ersten 1,5 Minuten zuerst mit der deutschen Synchronisierung zu schauen und anschließend das englische Original.
Aussprache von Namen und Fachbegriffen
Auch wenn die Übersetzung und Aussprache der Wörter meistens gut funktioniert, gibt es immer wieder Situationen, in denen es dann doch nicht klappt. Häufig gibt es z. B. Probleme bei der Aussprache von landestypischen Namen (engl. Caleb [gesprochen „Kailäb“] wird auf deutsch zu Kaleb [gesprochen Kaleb]) oder Fachbegriffen, im obigen Video wird z. B. „Van“ im englischen Original zu „Fann“ in der deutschen Synchronisierung.
Audioqualität der automatischen Übersetzung
Die Audioqualität der synchronisierten YouTube-Videos ist meist in etwa gleichwertig zum Original. Jedoch kann es an einigen Stellen zu Artefakten kommen oder man hört die Originalstimme noch leicht im Hintergrund. In manchen Situationen kann die Qualität aber auch enorm leiden und wirkt dann sehr komprimiert (siehe Anfang des folgenden Videos). In diesem Beispiel ist der Qualitätsunterschied deutlich hörbar. Das ist aber auch der einzige Fall, in dem mir das deutlich aufgefallen ist.
Die Wirkung der Stimme
Neben den bisher genannten, oft noch vernachlässigbaren, Problemen gibt es aber ein weiteres: Die insgesamte Wirkung der Stimme und die Vermittlung von Emotionen. Computer haben keine Emotionen, und genau so wirkt die Synchronstimme auch. Es ist eine neutrale, wertungsfreie Stimme, die keine Emotionen überträgt. Für ein Erklärvideo mag das geeignet sein, wenn aber z. B. Trent (s.o.) begeistert von seinem neuen Van erzählen möchte, gehen durch die Synchronisierung sämtliche Emotionen und folglich ein großer Teil der Kommunikation verloren.
Als Zuschauer verbindet man außerdem die hörbaren Stimmen mit den sichtbaren Gesichtern und es ist irritierend, wenn mehrere Personen dieselbe Stimme haben. Die Stimme hilft auch dabei, Sprecher zu identifizieren, die man eventuell nicht im Bild sieht. Wenn man aber nur eine künstliche Stimme aus dem Off hört und es dabei möglicherweise sogar noch mehrere Sprecher gibt, ist die Verwirrung groß, da man nie weiß, wer gerade spricht.
Kann ich die automatische Synchronisierung deaktivieren?
Aktuell ist es leider so, dass YouTube basierend auf der erkannten Sprache deines YouTube Kontos alle Videos mit verfügbaren Audiotracks in dieser Sprache automatisch aktiviert. Als YouTube Nutzer ist es aber oft verwirrend, wenn ein englisches Video plötzlich mit einer KI-Stimme synchronisiert wird. Wechseln kannst du die Sprache aber jeder Zeit über das Zahnrad im Videoplayer. Eine globale Einstellung gibt es meiner Kenntnis nach nicht, da die Sprache deines YouTube Kontos bzw. die vom Browser herangezogen wird. Wenn du also viele englische Videos schauen möchtest, kannst du deine Sprache umstellen (unter Kanaleinstellungen). Das dürfte aber für die meisten keine gute Option sein. Ich bin mir aber sicher, dass es schon bald eine entsprechende Funktion geben wird.
ℹ️ Unter dem Videotitel findest du übrigens einen Hinweis: „Automatisch synchronisiert“
Wann die YouTube Synchronisierung sinnvoll ist
Bei der automatischen Synchronisierung handelt es sich um eine äußerst nützliche Funktion, die die Reichweite vergrößern kann und Menschen weltweit helfen kann, Videos in anderen Sprachen zu verstehen, was gerade für Lern- bzw. Erklärvideos sinnvoll ist.
Man sollte sich aber vor der Nutzung überlegen, welchen Zweck man mit einem Video verfolgt. Wenn man beispielsweise als internationales Unternehmen einen Imagefilm produzieren möchte, der mit Gefühlen und Emotionen arbeitet, tut man gut daran, direkt mehrere Versionen in unterschiedlichen Sprachen zu produzieren anstatt eine automatisch zu synchronisieren. Oder aber man setzt auf klassische Untertitel in Textform.
Es bleibt aber spannend, wie sich diese Technologie in Zukunft weiterentwickelt. Es gibt auch andere Tools, die Stimmen und Emotionen von Sprechern deutlich besser nachahmen können und dabei sogar die Lippenbewegungen im Bild anpassen. Das aber wiederum erfordert eine entsprechende Produktion des Videos und funktioniert nicht automatisiert. YouTube schafft also mit wenig Aufwand für die Videoproduzenten eine durchaus interessante Möglichkeit für barrierefreie Videos. Aktuell allerdings noch mit ein paar Hürden und einer noch eher mäßigen Qualität.
Hast du die Funktion schon bewusst ausprobiert oder wurdest von der „komischen neuen Stimme“ überrascht? Teile deine Meinung dazu gerne in den Kommentaren! Wenn du noch weitere, teils recht unbekannte, YouTube-Funktionen kennenlernen möchtest, schau dir gerne unseren Artikel dazu an.