Die Synchronsprecherin Katharina Koschny arbeitet am 26.06.24 in der Sprecherinnenkabine eines Tonstudios in Berlin an der deutschen Synchronisierung eines Films (Quelle: rbb / Wenzel).

Berlin Künstliche Intelligenz in der Synchronbranche: Hörbücher auf Knopfdruck, aber ohne Emotionen

Stand: 13.07.2024 08:13 Uhr

KI.-gestützte Sprachgeneratoren können Stimmen erzeugen und Hörbücher vertonen, ohne dass dafür ein Mensch im Tonstudio sein muss. Aber wie gut sind sie? Ein Test mit der Berliner Synchronsprecherin Katharina Koschny. Von Marvin Wenzel

Katharina Koschny tritt vor ein Mikrofon und brüllt: "You give our number to unknown men?!" In der Aufnahmekabine übersetzt die Berliner Synchronsprecherin den Satz "Du gibst wildfremden Männern unsere Nummer?!" für die englische Synchronfassung von einem deutschen Spielfilm. Dabei ist ihr Rücken gerade, beim Sprechen runzelt sie ihre Stirn und wedelt mit der rechten Hand durch die Luft. Ihre Stimme klingt vorwurfsvoll und wütend. Sie scheint sich in die Filmszene einfühlen zu können, in der eine Mutter ihre Tochter anraunt.

Die Synchronsprecherin Katharina Koschny arbeitet am 26.06.24 in der Sprecherinnenkabine eines Tonstudios in Berlin an der deutschen Synchronisierung eines Films (Quelle: rbb / Wenzel).

"Du gibst wildfremden Männern unsere Nummer?!": Katharina Koschny in Aktion.

Durch ein Fenster in der Aufnahmekabine kann sie die Originalfassung von der Szene auf einem Bildschirm sehen. Der Toningenieur Rudy Redl sitzt wenige Meter dahinter vor einem Mischpult und blickt auf einen Computerbildschirm. Auf dem Monitor erscheint die Tonspur. “Das war schon super, aber lass uns den Satz gerne nochmal machen”, ruft er Koschny zu und klickt auf den Aufnahmeknopf. Koschny spricht den Satz erneut - und schon ist in Teamarbeit ein kleiner Teil einer Synchronfassung entstanden.

Texte von fiktiven Stimmen und Rihanna einsprechen lassen

Noch wird der Großteil aller Synchronfassungen von Filmen und Hörbüchern von professionellen Sprecher:innen wie Koschny eingesprochen. Doch seit einigen Monaten bieten Software-Unternehmen computergenerierte Stimmen an, die ganze Hörbücher einsprechen können. Ein Mensch ist dann dafür im Studio nicht mehr nötig. Das versprechen zumindest einige K.I.-Programme wie "Vidnoz".
 
Die Bedienung ist einfach: Der Nutzer muss nur einen Text in ein Bedienfeld einfügen - und schon spricht die K.I. den Text. Die meisten Anwendungen sind kostenfrei. Die Nutzer:innen können die Sprechgeschwindigkeit anpassen und zwischen verschiedenen männlich und weiblich klingenden Stimmen wählen. Neben der freundlich und warm klingenden Frauenstimme kann man sich auch Texte von Prominenten wie US-Popikone Rihanna oder Bundeskanzler Olaf Scholz einsprechen lassen.

Künstliche Intelligenz als Komponistin - ein KI-Song im Qualitätscheck

KI-Programme können längst binnen Sekunden ganze Musiktitel erzeugen. Doch wie gut sind solche Songs? Und was bedeuten sie für die Musikbranche? Marvin Wenzel hat mit Musikern in einem Berliner Tonstudio einen künstlich erzeugten Titel getestet.mehr

"Strukturiert linear einen Text vorlesen - aber sonst nichts"

Eine Neuerung, die das Geschäftsmodell von Katharina Koschny und ihre gesamte Branche bedrohen könnte: Viele Sprecher:innen seien derzeit besorgt, Aufträge durch die K.I.-Konkurrenz zu verlieren. Seit über drei Jahrzehnten arbeitet die ehemalige Schauspielerin in der Synchronbranche. Wenn sie nicht Hörbüchern oder Filmen ihre Stimme verleiht, gibt sie in ihrer "Akademie für Professionelles Sprechen” in Wilmersdorf Kurse und bildet Sprecher:innen aus.
 
"Die K.I. kann gut strukturiert einen Text linear vorlesen", sagt sie. "Aber sonst nichts." Professionelles Sprechen bedeutete aber, dass man Worte nicht nur vorliest, sondern über die Stimme Emotionen und einen szenischen Kontext hörbar macht. Die K.I.-Stimme sei jedoch nicht in der Lage, diesen Hörerkontakt herzustellen.
 
"Beim Sprechen muss man etwas fühlen, so entsteht eine Intimität mit dem Hörer." Das könne die K.I. nicht. Sie beherrsche es nur, Dinge zu wiederholen, die es bereits gibt. Doch gerade beim Synchron ginge es darum, spontan und kreativ Texte zu inszenieren, damit sie lebendig klingen.

KI-generierte Bilder: Wie sinnvoll ist eine Kennzeichnungspflicht?

Justizminister Marco Buschmann (FDP) fordert eine Kennzeichnungspflicht für KI-generierte Fotos und Texte. Doch wie könnte diese konkret aussehen? Xenia Klinge vom Deutschen Forschungszentrum für Künstliche Intelligenz sieht Probleme bei der Umsetzung.mehr

Die Anwendungsfelder von K.I.-Stimmen werden immer größer

Auch wenn Koschny von K.I. nicht überzeugt ist, vermutet sie, dass computergenerierte Stimmen zukünftig einige Jobs in der Synchronbranche ersetzen könnten. Zu verlockend sei es für gewinnorientierte Unternehmen, durch K.I.-Stimmen Produktionskosten zu senken. Die Anwendungsfelder von K.I.-Stimmen haben sich in den vergangenen Jahren stark erweitert. So vertonen viele Nachrichtenportale kostengünstig ihre Text-Inhalte und auch Amazon Audible testet eine Software, die Hörbücher mit verschiedenen Stimmen sprechen kann.
 
"K.I.-Stimmen kann man oft daran erkennen, dass die Satzmelodie und der Rhythmus gleich bleiben, sie sehr monoton und eben unmenschlich klingen und einem irgendetwas komisch vorkommt", sagt David M. Schulze im Videotelefonat mit dem rbb. Er arbeitet ebenfalls als Synchronsprecher, seine Stimme ist unter anderem in den "Masters of the Universe"-Hörbüchern zu hören sowie in Dokumentarfilmen. Als Vorstand des Verbandes Deutscher Sprecher:innen setzt er sich für einen faire Regulierung beim Einsatz von K.I. in der Synchronbranche ein.
 
"Unser größtes Anliegen ist es, dass Künstler eine Wahl haben, ob K.I.-Programme mit ihren Stimmen lernen dürfen oder nicht." Bisher gäbe es bei den Verträgen keine K.I.-Ausschlussklausel. Die meisten Firmen geben zudem nicht bekannt, anhand von welchem Material sie ihre Programme trainieren. Dabei könnte es sein, dass sie dafür Millionen von Audiodateien nutzen, an denen sie gar keine Rechte haben. Falls das zutreffen sollte, wäre das für David M. Schulze einer der "größten Raubzüge der Geschichte", wie er sagt.

Wir kämpfen dafür, dass nur die Urheber von Stimmen entscheiden dürfen, für welche Zwecke sie verwendet werden.

Verband kämpft für Zustimmungsrecht und Kennzeichnungspflicht

Wie sich die K.I.-Programme finanziell auf die Sprechbranche auswirken, ist bisher laut Verband Deutscher Sprecher:innen schwer einzuschätzen. Im vergangenen Jahr gab es im Werbebereich größere Einbrüche, allerdings habe das auch an der wirtschaftlichen Unsicherheit vieler Unternehmen liegen können. Zudem hatten die Arbeitskämpfe in Hollywood weniger Aufträge zur Folge, da es weniger Filme zu synchronisieren gab.
 
Der Verband Deutscher Sprecher:innen hat aktiv am "Gesetz über künstliche Intelligenz" mitgewirkt, mit dem die EU den Einsatz von K.I. regulieren möchte. Im März wurde das Gesetz verabschiedet. "Wir kämpfen dafür, dass nur die Urheber von Stimmen entscheiden dürfen, für welche Zwecke sie verwendet werden", sagt Schulze. Auch wenn die Stimmen synthetisiert wurden und als K.I.-Version vorliegen, sollte es seiner Meinung nach eine verpflichtende Zustimmung der Urheber:innen geben, wofür die Stimme dann verwendet wird. Dementsprechend müsse der Einsatz synthetisierter Stimmen dann auch fair vergütet werden.

Der Toningenieur Rudi Redl (links) und die Synchronsprecherin Katharina Koschny arbeiten am 26.06.24 in Berlin an der deutschen Synchronisierung eines Films (Quelle: rbb / Wenzel).

"Menschen mögen einfach am liebsten menschengemachte Kunst": Katharina Koschny und der Toningenieur Rudy Redl bei der Arbeit im Studio.

Koschny: "Wirkliche Seelennahrung" gibt es nur durch menschliche Sprecher

Darüber hinaus setzt sich der Verband für eine Kennzeichnungspflicht von K.I.-generierten Inhalten ein und entwickelt ein Gütesiegel für Werke von professionellen Sprecher:innen. "Das ist eine tolle Möglichkeit, um die hohe Qualität der traditionsreichen Synchron-Kultur in Deutschland zu kennzeichnen", sagt er.
 
Die Zukunft der Branche sieht Schulze trotz aller derzeitigen Widrigkeiten insgesamt positiv. "Menschen mögen einfach am liebsten menschengemachte Kunst", sagt er. Katharina Koschny ist ähnlicher Meinung. In K.I.-Stimmen sieht sie eine "absolute Verarmung der Sprechkunst", wie sie erklärt. "Wirkliche Seelennahrung" gäbe es nur durch kreative Menschen, die sich in einen Text einfühlen und ihn dann mit Leidenschaft präsentieren. "Es ist nicht möglich, menschliche Kreativität in ein Korsett zu zwängen", sagt die Synchronsprecherin. Denn sonst gehe dabei die Ebene der Inspiration verloren. Und genau die sei für eine kreative Sprechkunst erforderlich, die Menschen begeistert - und auch von Menschen gemacht ist.