Der natürliche Gesprächspartner

Der natürliche Gesprächspartner
Konkatenation von Audiofiles – ein Fachbeitrag von Christian Schneider, dynamic
audio
Moderne Sprachapplikationen begegnen dem Benutzer immer häufiger mit einem
ausgefeilten Hear & Feel-Konzept. Das Persona-Design ist ausgearbeitet, die Stimme
und die Texte sind dem Produkt angepasst und auch das Dialog-Design wird
zunehmend offener und natürlicher gehalten. Kurzum: Die Branche strebt einen
Dialog mit einem natürlich klingenden computergesteuerten Gesprächspartner an.
1. State of the Art
Betrachten wir die Sprachapplikationen am Markt, so stellen wir fest, dass sich auf
der Eingabeseite des Nutzers, auf dem Weg zum natürlichen Dialog, in den letzen
Jahren viel getan hat. Die Fragestellungen im Dialog werden immer offener und
natürlicher und auch die Spracherkennung wird immer besser. Auf der Ausgabeseite
der Systeme hingegen ist leider kaum eine Veränderung zum Positiven zu
verzeichnen. IVRs klingen heutzutage immer noch unnatürlich und roboterhaft.
Woran liegt das?
Das Bewusstsein für eine unternehmensspezifische, zum Produkt passende Persona
hat zwar zugenommen (sicherlich ein wichtiger Schritt hin zum natürlichen
Gesprächspartner), dennoch klingen die Systemausgaben immer noch unnatürlich
und künstlich zusammengebaut, was angeblich dem Umstand gezollt ist, dass die
Audioausgabe der Sprachapplikation auf konkateniertem Audiomaterial beruht.
(Unter Konkatenation versteht man das aneinanderketten einzelner Audiodateien).
Selbstverständlich ist die Technik des Konkatenierens den Dialog-Designern bekannt
und sicherlich kaum eine Anwendung kommt heute ohne konkateniertes Audio aus.
Dennoch, wird gerade in diesem Bereich Vieles falsch gemacht.
2. Wann wirkt der Gesprächspartner unnatürlich?
Eine Sprachapplikation ist eine interaktive Anwendung. Daher ist es nur schwer
vorherzusagen, welchen genauen Weg der Benutzer durch die Anwendung wählt,
bzw. in welche Richtung der Call-Flow ihn führt. Wird der Benutzer verstanden?
Braucht er Hilfe? Muss etwas wiederholt werden? Gerade in komplexen Systemen
gleicht kaum ein Call dem anderen. Vor diesem Hintergrund ist es sehr wichtig, dass
auch die einzelnen Audiofiles miteinander harmonisieren und die Anknüpfungspunkte
zwischen den Dialogsequenzen stimmig sind, damit der Dialog natürlich klingt.
Viele Systeme verwenden z.B. Random Prompts als Feedback für erfolgreiche oder
nicht verstandene Eingaben. Die Idee ist gut, lockert den Dialog auf und sorgt für
Abwechslung. Leider wird hierbei häufig vergessen, eine natürliche Sprachpause
nach dem Random Prompt einzubauen, was den Dialog holpern lässt. Generell sind
die Übergänge von Random-, Hilfe- und Nomatch Prompts zum Dialogprompt anfällig
für schlecht zusammengesetzte Audiofiles.
Wichtig ist auch die Stimmung des Sprechers, der die Audiofiles vorher im Tonstudio
aufgenommen hat. Die Tonality und Lautstärke sollte zwischen den konkatenierten
Audiodaten gleichbleibend sein, da sonst ein Bruch im Dialog entsteht. Eine
unkontinuierliche Persona wirkt stets unnatürlich.

Die größte Herausforderung scheint aber die natürliche Wiedergabe von Daten in
IVRs zu sein. Bei großen und sich ändernden Datenbeständen wird für die
Sprachausgabe meist eine TTS-Engine eingesetzt. Diese künstlichen Stimmen haben
den Vorteil, wirtschaftlicher zu sein, als alle eventuellen Datenbestände im Tonstudio
aufzunehmen. Auf der anderen Seite entsteht beim Anrufer fast immer der Eindruck
mit einem Roboter zu telefonieren.
Eine andere Möglichkeit Datenbestände wiederzugeben, ist die Verwendung von
vorher aufgenommenen Audiodaten, die konkateniert werden. Diese Methode wird
bei überschaubaren Datensätzen wie z.B.Nummern, Geldbeträgen oder Uhrzeiten
angewandt. Konkatenierte Datensätze klingen – richtig angewandt – schon recht
natürlich im Gegensatz zu TTS-Stimmen. Von einer wirklich natürlichsprachlichen
Ausgabe seitens der Systeme scheinen wir dennoch weit entfernt zu sein. Die
Sprechtempi unterscheiden sich zu oft zwischen der Datenausgabe und dem
vorangegangenem Prompt oder die Stimmungen der einzelnen Dateien passen
einfach nicht zueinander.

3. Was kann man besser machen?
Um ein natürlich klingendes Produkt zu schaffen, ist die enge Zusammenarbeit
zwischen Tonstudio und Dialog-Designern von größter Wichtigkeit. Zum einen sollte
der Sprecher im Tonstudio verstehen können, wie die einzelnen Prompts miteinander
kombiniert werden, denn nur dann kann er durch Nuancierung und Bindungen der
Betonungen ein harmonisches Zusammenspiel der Audiodaten erreichen. Gerade in
der Vorbereitung einer Aufnahmesession sollte Wert auf ein sorgfältiges
Aufnahmedokument gelegt werden. Numerisch generierte Promptlisten schaffen es
oft nicht, einen Eindruck zu vermitteln, wie der Dialog ablaufen soll. Ein
Aufnahmedokument hingegen, das der Dialogstruktur folgt, trägt viel zur
Natürlichkeit eines Systems bei: Die Kontinuität der Persona bleibt erhalten. Auch
der aufnehmende Techniker (bzw. der Editierer der Aufnahmen) sollte etwas vom
Konkatenieren verstehen. Gerade bei der Auswahl unter mehreren Sprechertakes
sollten die am besten harmonisierenden Audiofiles ausgesucht werden. Nicht immer
eine leichte Aufgabe. Vor allem dann nicht, wenn das Zusammenspiel der
Audiodateien mehrdeutig ist.
Auch bei der Wiedergabe von Datenbeständen kann man einiges verbessern. Bei
IVRs, die auf eine TTS-Engine angewiesen sind, ist es z.B. möglich, Aufnahmen mit
der gleichen Stimme zu realisieren, die die TTS-Stimme eingesprochen hat. Das
Ergebnis wäre eine gleich bleibende Stimme für die Daten (TTS-Ausgabe) und für
die Dialogprompts (Studiosprecher). Der Benutzer nimmt somit keinen gravierenden
Bruch in der Stimmung des Systems wahr.
Eine andere Möglichkeit, TTS-Engines ohne gravierenden Natürlichkeitsverlust
einzusetzen, ist die Einbindung in ein pfiffiges Gesamtkonzept. Beispiele gibt es hier
schon am Markt. Im Preisvergleich der 11864 wird der Benutzer z.B. einfach an
einen „Assistenten“ weitergeleitet, der dann die TTS Ausgabe übernimmt. Einfach
und gut gelöst.

Bei konkatenierten Datenbeständen, die auf eine TTS-Engine verzichten können,
gibt es ebenfalls Verbesserungsmöglichkeiten. Speziell bei der Wiedergabe von
numerischen Ziffern, wie z.B. Telfonnummern, Passwörtern, PINs etc. fällt auf, dass
diese oft roboterhaft zusammengesetzt klingen. Das liegt zum Teil daran, dass viele
Systeme nur eine, maximal zwei Betonungen für eine Ziffer aufnehmen. Viel
natürlicher hingegen klingen drei Betonungen: Initial, medial und final. Betrachten
wir beim Sprechen die Zahl 9873, so stellen wir fest, dass die erste Ziffer initial, die
nächsten beiden medial und die letzte Ziffer final betont gesprochen wird. Sicherlich
bedeutet die Einführung einer dritten Betonungsart einiges an Mehraufwand für den
Programmierer, das Ergebnis spricht jedoch für sich.

Eine weitere Möglichkeit, Zahlen und numerische Ziffern natürlicher wiederzugeben
ist die Verwendung von Zahlenpaaren in der Audioausgabe. Dadurch wird zwar der
Recordingaufwand erhöht, da anstatt von 20 Ziffern (10 initial und 10 final) 200
Ziffern aufgenommen werden müssen. Aber auch hier ist das Ergebnis deutlich
natürlicher.
Besonderes Augenmerk sollte auch auf das richtige Timing und die Betonung der zu
konkatenierten Audiofiles gelegt werden. Eine wirkliche Herausforderung, grade bei
der Aufnahme im Tonstudio mit dem Voice Talent. Nur wirklich gute Sprecher sind
erfahrungsgemäß in der Lage, dieser hohen Anforderung gerecht zu werden. Es
verlangt viel Disziplin und Können hunderte von Audiodaten gleichmäßig zu betonen
– ohne Schwankungen in der Stimmung und ohne Timingverlust. Doch es geht!
Damit aber noch nicht genug. Besonders im Editingprozess (Schnitt und
Bearbeitung) der Audiodateien muss beachtet werden, wie die einzelnen Audiofiles
untereinander zusammenpassen. Denn eine gute Betonung und eine saubere
Aufnahme erzeugen noch keinen natürlich klingenden Satz. Grade der gezielte
Einsatz von Pausen im Editingprozess schafft erst eine natürliche Satzmelodie.

Fazit
Einen natürlich klingenden Gesprächspartner zu kreieren ist meiner Meinung nach
derzeit zwar noch eine große Herausforderung, aber nicht unlösbar. Programmierer,
Dialog-Designer und Tonstudio müssen einfach schon frühzeitig im Projektablauf
gewerkeübergreifend zusammenarbeiten, um konzeptionell festzulegen, wie die
höchstmögliche Natürlichkeit in der Audioausgabe zu realisieren ist.

Christian Schneider
Sounddesigner und Multimediaproduzent, dynamic audio
Der Sounddesigner und Multimediaproduzent Christian Schneider
ist Mitgründer von dynamic audio – dem Full Service Spezialisten
für Audioproduktionen im Multimediabereich. Gemeinsam mit dem
Projektmanager und Audio Engineer Jonathan Buttmann bilden
sie das Kernteam des Unternehmens. Unterstützt wird das Team
durch ein breites Spektrum an freien Sprechern, Sounddesignern,
Textern, Konzeptern und Linguisten. dynamic audio verfügt über
ein professionell ausgestattetes Tonstudio, eine umfangreiche
Soundlibary sowie einen großen, mehrsprachigen Sprecherpool.