Sprachsynthese - Bark, Murf.ai und Elevenlabs im kurzen Vergleich

Neben Bildern und Texten können KI-Systeme auch mittlerweile sehr gute Sprachausgabe synthetisieren. Meine Recherchen zu Musik habe ich im Blog ja bereits hier und hier vorgestellt. Da folgt auch im September ein Update. Aber hier geht es nun um Sprachsynthese.

Im Beitrag ist ein experimentellen Podcast, den ich mit Hilfe von KI-Systemen erstellt habe.
Zum Thema Sprachsynthese kann ich nun auch einiges erzählen. Dazu habe ich verschiedene Systeme ausprobiert, nämlich das Open-Source-Produkt Suno Bark (hier Github und hier zum Ausprobieren bei Huggingface.co) sowie murf.ai. Von Elevenlabs stammt ein weiteres Tool.

Hier zunächst der Podcast mit KI-Unterstützung.

Los gehts. Vergleichen wir mal!

Auf jedes Produkt habe ich einen Englischen Satz geworfen. Es handelt sich hier um den Abstract aus meinem Discussion Paper (hier), der wie folgt aussieht. Zuerst der deutsche Text, darunter dann die Englische Fassung, die auch von den Synthese vorgelesen wird.

Game Engines gibt es bereits seit den 1980er Jahren. Eine der ersten Game Engines wurde vom Team um Shigeru Miyamoto in ihrem Motorrad-Rennen "Excitebike" (NES, 1984) eingesetzt. Später nutzen sie die Engine, um Mario in "Super Mario Bros" (NES, 1985) auf die Sprünge zu helfen. Auf dem Markt gibt es viele Game Engines, jede mit ihren Vor- und Nachteilen. Und jedes aktuelle Spiel benötigt eine Art Game Engine, aber kann das auch der Browser sein?



Game engines have been around since the 1980s. One of the first game engines was used by Shigeru Miyamoto's team in their motorcycle racing game Excitebike (NES, 1984). Later, they used the engine to give Mario a run for his money in Super Mario Bros (NES, 1985). There are many game engines on the market, each with its advantages and disadvantages. And every current game needs some kind of game engine, but can it be the browser?



Hier nun die Sprachsamples. Es wurde von den KI-Systemen nicht der gesamte Text vorgelesen bzw. synthetisiert und alle haben z.B. Probleme mit Informationen in "Klammern", z.B. NES (1985). Daher habe ich den Teil jeweils etwas umgeschrieben. Aber insgesamt ist das Ergebnis erstaunlich gut. Übrigens habe ich bei allen drei Synthesizern die kostenlose Version verwendet.

Suno Bark. Der Sound ist relativ dumpf, aber die Sprachmelodie ist recht überzeugend. Für gelegentliches Ausprobieren ist das sicherlich ausreichend. Für die Synthese benötigt Bark jedoch um die 50 Sekunden und die kommerzielle Nutzung ist noch nicht erlaubt. Dafür ist es Open-Source.

Elevenlabs. Sprachqualität und Sprachmelodie sind sehr natürlich und klar zu verstehen. Sowohl die US als auch die UK-Variante klingt gut. Die kommerzielle Nutzung ist möglich, wenn ein Abo gekauft wird.

Murf.ai. Sehr gute Sprachqualität und Sprachmelodie, die auch noch anpassbar ist. Die Probeversion bietet 10 kostenlose Minuten. Und die 10 Minuten sind gut angelegt, um alles auszuprobieren.


Wie zu hören ist, sind die synthetisierten Sprachausgaben ausgesprochen natürlich. Je nach Text ist mal Elevenlabs, mal murf.ai besser - objektiv und subjektiv - und lässt sich mit einigen Sprechern ausprobieren. Suno Bark fällt ein bisschen ab, kann sich aber auch hören lassen, wenn es nicht um beste Audioqualität geht. Zumal es sich ja auch um ein Open-Source-Projekt handelt und somit potentiell kostenlos nutzbar wäre.

Im nächsten Schritt habe ich dann meine Stimme aus anonymisierten Feedbackrunden mit Studierenden zum Training von Elevenlabs genutzt - darüber habe ich in einem eigenen Blogeintrag geschrieben, der hier aufgerufen werden kann. Dort gibt es eine Möglichkeit, seine eigene Stimme zu klonen. Das Schnellklonen nutzt dazu mindestens 30 Sekunden Material, während das ausführliche Klonen bis zu zwei Stunden Material erfordert. Das Ergebnis ist im Podcast zu hören.

Copyright 2016-2023 Jörg Burbach | All rights reserved – Made with ♥ in Cologne | Impressum