Text-Prompting und Sprachsynthese
Hier erfahren sie mehr über effektive Techniken, um die Sprach-KI dazu zu bringen, Pausen einzulegen, Emotionen zu vermitteln und das Sprechtempo zu steuern.
Pausen
Es gibt einige Möglichkeiten, eine Pause oder Unterbrechung einzuführen und den Rhythmus und die Kadenz des Sprechers zu beeinflussen. Die konsistenteste Methode ist die programmatische Verwendung der Syntax . Dies erzeugt eine genaue und natürliche Pause in der Rede. Es handelt sich nicht nur um eingefügte Stille zwischen den Wörtern, sondern die KI versteht diese Syntax tatsächlich und fügt eine natürliche Pause ein. Da dies jedoch mehr als nur eingefügte Stille ist, kann die Art und Weise, wie die KI diese Pausen handhabt, variieren. Wie üblich spielt die verwendete Stimme eine entscheidende Rolle im Ergebnis. Einige Stimmen, die mit ein paar „äh“s und „ah“s trainiert wurden, haben gezeigt, dass sie manchmal diese vokalen Eigenheiten während der Pausen einfügen, wie es ein echter Sprecher tun könnte. Ein Beispiel könnte so aussehen:
"Give me one second to think about it." <break time="1.0s" /> "Yes, that would work."
Pausenzeiten sollten in Sekunden angegeben werden, die KI kann Pausen von bis zu 3 Sekunden Länge verarbeiten.
Bitte vermeiden Sie die Verwendung einer übermäßigen Anzahl von Pausen-Tags, da dies möglicherweise zu Instabilitäten in der KI führen kann. Die Sprache der KI könnte schneller werden und sehr schnell sprechen, oder es könnte mehr Rauschen im Audio und einige andere seltsame Artefakte einführen.
Ausssprache
Diese Funktion wird derzeit nur von den Modellen „Eleven English V1“ und „Eleven Turbo V2“ unterstützt. In bestimmten Fällen möchten Sie möglicherweise, dass das Modell ein Wort, einen Namen oder einen Ausdruck auf eine bestimmte Weise ausspricht. Die Aussprache kann mithilfe standardisierter Aussprachealphabete festgelegt werden. Derzeit unterstützen wir das Internationale Phonetische Alphabet (IPA) und das CMU Arpabet. Aussprachen werden angegeben, indem Wörter mit dem Phonem-Tag der Sprachsynthese-Markup-Sprache (SSML) umschlossen werden. Um diese Funktion zu nutzen, müssen Sie das gewünschte Wort oder den gewünschten Ausdruck im Tag Wort für IPA oder im Tag Wort für CMU Arpabet umschließen. Ersetzen Sie "Ihre-IPA-Aussprache-hier" oder "Ihre-CMU-Aussprache-hier" durch die gewünschte IPA- oder CMU-Arpabet-Aussprache.
Ein Beispiel für IPA:
<phoneme alphabet="ipa" ph="ˈæktʃuəli">actually</phoneme>
Beispiel für CMU Arpabet:
Es ist wichtig zu beachten, dass dies nur pro Wort funktioniert. Das bedeutet, dass wenn Sie zum Beispiel einen Namen mit Vor- und Nachnamen haben, der auf eine bestimmte Weise ausgesprochen werden soll, Sie die Aussprache für jedes Wort einzeln erstellen müssen.
Englisch ist eine Sprache mit lexikalischem Akzent, was bedeutet, dass innerhalb von mehrsilbigen Wörtern einige Silben stärker betont werden als andere. Die relative Hervorhebung jeder Silbe ist entscheidend für die korrekte Aussprache und Bedeutungsunterscheidungen.
Daher ist es sehr wichtig, daran zu denken, den lexikalischen Akzent sowohl bei der IPA- als auch bei der ARPAbet-Schreibung einzubeziehen, da das Ergebnis sonst möglicherweise nicht optimal ist.
Nehmen Sie zum Beispiel das Wort „talon“. Falsch:
Korrekt:
Das erste Beispiel könnte zwischen der Betonung auf AE und AH wechseln, während das zweite Beispiel immer zuverlässig mit der Betonung auf AE und ohne Betonung auf AH ausgesprochen wird.
Wenn man es so schreibst:
Es wird immer den Schwerpunkt auf AH statt auf AE legen.
Emotion
Wenn du möchtest, dass die KI eine bestimmte Emotion ausdrückt, ist es am besten, in einem Stil zu schreiben, der dem eines Buches ähnelt. Um gute Eingabeaufforderungen zu finden, kannst du in einigen Büchern blättern und Wörter und Phrasen identifizieren, die die gewünschte Emotion vermitteln. Zum Beispiel kannst du Dialogtags verwenden, um Emotionen auszudrücken, wie er sagte verwirrt oder er schrie wütend. Diese Art von Eingabeaufforderungen hilft der KI, den gewünschten emotionalen Ton zu verstehen und zu versuchen, eine Sprachwiedergabe zu erzeugen, die diesen genau widerspiegelt. Mit diesem Ansatz kannst du hochgradig angepasste Sprachwiedergaben erstellen, die perfekt für eine Vielzahl von Anwendungen geeignet sind.
Sie müssen auch irgendwie die Eingabeaufforderung entfernen, da die KI genau das liest, was Sie ihr geben. Die KI kann manchmal auch die beabsichtigte Emotion aus dem Kontext des Textes ableiten, selbst ohne die Verwendung von Tags.
Dies ist nicht immer perfekt, da man auf das Urteilsvermögen der KI angewiesen ist, um zu verstehen, ob etwas sarkastisch, lustig oder einfach nur aus dem Kontext des Textes heraus gemeint ist.
Tempo
Basierend auf unterschiedlichen Nutzerfeedbacks und Testergebnissen wird vermutet, dass die Verwendung einer einzigen langen Probe für die Stimmklonung bei einigen mehr Erfolg gebracht hat als die Verwendung mehrerer kleinerer Proben. Die aktuelle Theorie besagt, dass die KI diese Proben ohne Trennung zusammenfügt, was zu Tempo-Problemen und schnellerer Sprache führt. Dies ist wahrscheinlich der Grund, warum einige Leute von schnell sprechenden Klonen berichtet haben. Um das Tempo des Sprechers zu kontrollieren, können Sie denselben Ansatz wie bei Emotionen verwenden, indem Sie in einem Stil schreiben, der dem eines Buches ähnelt. Obwohl dies keine perfekte Lösung ist, kann es helfen, das Tempo zu verbessern und sicherzustellen, dass die KI eine Sprachaufnahme in der richtigen Geschwindigkeit erzeugt. Mit dieser Technik können Sie hochwertige Sprachaufnahmen erstellen, die sowohl individuell angepasst als auch angenehm anzuhören sind.
Tonspuren erstellen mit dem KI-Generator
Vorschau auf den Audioguide-Stations-Manager zum selbsterstellen von Audioguide-Projekten.
[Stand: 12/24]