Viele englischsprachige Hörbücher werden längst mit künstlichen Stimmen produziert. Aber die deutschen Verlage bleiben skeptisch.
Eine Zeitreise katapultiert den schottischen Highlander Callan aus dem 14. Jahrhundert ins heutige Boston. Dort trifft er die selbstbewusste Daisy. Die Funken fliegen, doch Callan muss leider wieder zurück in die Vergangenheit – darum geht es in Lost in Time. Wer den Roman lieber hören als lesen möchte, findet ihn bei Audible, der Hörbuch-Tochter von Amazon. Von einer Frauenstimme mit britischem Akzent wird einem dort die Liebesgeschichte vorgelesen. Doch weder die Autorin Cynthia Luhrs noch eine professionelle Sprecherin haben sich dafür vor ein Mikro gesetzt. Lost in Time wurde von einem KI-System eingesprochen.
„Virtual Voice“ nennt Audible das. Dabei hatte das Unternehmen noch 2023 versprochen, nur von Menschen eingelesene Hörbücher zu verkaufen. In Deutschland hält man sich noch daran – doch im englischsprachigen Raum findet man bereits mehr als 50.000 mit KI-Stimmen erstellte Hörbücher.
Auch Apple lässt seine Bücher mittlerweile so vorlesen – ebenfalls nur in Englisch. Ein künstlicher Sopran hört dort auf den Namen Madison, der Bariton heißt Warren. Beide Stimmen sind für Thriller, Science-Fiction und Fantasy zuständig. Sach- und Selbsthilfebücher hingegen tragen die KI-Stimmen Helena und Mitchell vor. Sie klingen ein klein wenig menschlicher als die Audible-Stimme, die Callans und Daisys Liebesgeschichte erzählt. Wirklich täuschen können einen die synthetischen Stimmen jedoch alle nicht. Auch nicht jene, mit denen Google bei Hörbüchern experimentiert.
Das dürfte ein Grund für die Zurückhaltung deutscher Verlage bei diesem Thema sein. „Wir beobachten den Markt sehr genau“, sagt Beate Mutschler, die bei der Verlagsgruppe Penguin Random House für das Thema KI zuständig ist. „Aber momentan genügt die Qualität noch nicht ansatzweise unseren Ansprüchen.“
Hörbücher boomen: Gegenüber dem Vorjahr stiegen die Umsätze 2023 um mehr als drei Prozent. 3,4 Millionen Menschen kauften sich Hörbücher, vor allem als Download oder Streaming, berichtet der Börsenverein des Deutschen Buchhandels. „Das Interesse an und die Beliebtheit von Hörbüchern steigen kontinuierlich“, kommentiert die Marktforschungsfirma Media Control den Dauertrend.
Doch bei aller Liebe ist Deutschland eben auch ein anspruchsvoller Markt: „Es gibt eine inzwischen hundert Jahre lange Historie von sehr liebevoll produzierten Hörspielinszenierungen im Rundfunk und von Theaterstücken, die als hochwertige Hörbuchproduktionen aufgenommen wurden“, sagt Heike Völker-Sieber, die bei Penguin Random House die Pressearbeit der Hörbuchsparte leitet. „Wir sehen keine Zahlungsbereitschaft für minderwertige Produktionen – und sind zudem auch unseren Autorinnen und Autoren verpflichtet. Ein Hörbuch einzusprechen, ist ebenso eine Kunst, wie ein Buch zu schreiben.“
Dennoch scheint weniger die Frage zu sein, ob große Verlage Hörbücher mit KI-Stimmen veröffentlichen werden, sondern eher, wann sie es tun und mit welchen Titeln. Sachbücher eignen sich beispielsweise besser als Romane, weil der schiere Inhalt für viele wichtiger sein dürfte als das wohlige Timbre von so berühmten Sprechern wie Christian Brückner (Der Alchemist) oder Luise Helm (Der Gesang der Flusskrebse).
Aber es gibt noch einen anderen Trend: Man lässt nicht aktuelle Bestseller, sondern eher ältere und fremdsprachige Titel per KI vertonen. So arbeitet der US-Verlagsgigant HarperCollins bereits mit dem US-Start-up ElevenLabs daran, in die Jahre gekommene nichtenglische Bücher in eine Sprach-KI einzufüttern. Also Werke, für die es sonst ohnehin keine Hörbuchversion gegeben hätte. Die Firma ElevenLabs, die in Deutschland mit Bild und der Rheinischen Post zusammenarbeitet, ist stolz auf ihre KI-Stimmen, die sogar auf den Inhalt reagieren können – traurige Passagen werden also anders intoniert als humorvolle.
„Die Text-to-Speech-Software von ElevenLabs war die erste, die den Kontext eines ganzen Satzes verstehen und den Tonfall und die Emotion der Sprache entsprechend anpassen konnte“, antwortet das Unternehmen per Mail. „Frühere Sprachmodelle, die einen Text nur Wort für Wort wiedergeben konnten, klingen im Vergleich oft roboterhaft.“
Auch bei der KI muss nachgebessert werden
ElevenLabs wurde 2022 von den Polen Piotr Dabkowski (Ex-Google) und Mati Staniszewsk (Ex-Palantir) gegründet. Die Firma beschäftigt rund 40 Mitarbeitende und wird aktuell mit über einer Milliarde Dollar bewertet. Bekannt wurde sie 2023, weil es ihr gelang, Stimmen einfach und täuschend echt auf der Basis von nur wenigen Minuten Audiomaterial zu klonen. Für eine noch realistischere und flexiblere Nachbildung sind drei Stunden Ausgangsmaterial nötig.
Doch ab wann lässt sich eine bekannte Stimme eigentlich als echt bezeichnen?
Weiterlesen auf ZEIT Online
Text: Christoph Koch
Foto: Alireza Attari auf Unsplash