Das Thema Sprachanwendungen hat in den letzten Jahren enorm an Bedeutung
gewonnen. Auf der Auftraggeberseite finden wir zunehmend bedeutende
Unternehmen, die Teile ihres Call Centers entlasten oder gar komplette
Servicebereiche durch Sprachdialogsysteme ersetzen. Die Vorteile für Unternehmen
liegen klar auf der Hand: Kosteneinsparung durch Entlastung von Call Centern, 24/7
Erreichbarkeit, erweitertes Serviceangebot, um nur einige zu nennen.
Wie sieht es aber auf der Seite der Endverbraucher aus? Hier verzeichnen wir zwar
eine zunehmende Akzeptanz gegenüber der Sprachtechnologie, oft ist aber die erste
Reaktion der Anrufer: „…schon wieder ein Anrufbeantworter?!“
Was können wir also tun, um die Kundenzufriedenheit zu steigern? Hier kommt
neben Funktionalität und Dialogstruktur das Thema Audiodesign ins Spiel.
Auch wenn wir zunehmend professionell audio-produzierte Voice-Anwendungen im
deutschen Markt finden, wird das Thema Audiodesign oftmals noch recht
stiefmütterlich behandelt.
Viele Unternehmen scheuen Kosten und versuchen, die Sprachaufnahmen im
eigenen Haus, ohne professionelles Equipment und mit nicht ausgebildeten
Sprechern abzudecken. Die Stimme eines talentierten Mitarbeiters kombiniert mit
der Standardsoundkarte eines Firmencomputers mag vielleicht für eine kleine
Demoproduktion ausreichen, Voice-Anwendungen die einen professionellen
Eindruck vermitteln sollen, stellen jedoch weit höhere Ansprüche an
Produktionstechnik und Sprecher. Ergebnis dieser Aufnahmen sind häufig
unnatürlich und holperig klingende Sprachaufnahmen, störende
Umgebungsgeräusche und ein Gesamteindruck, der im ersten Moment tatsächlich
eher den Eindruck eines selbst besprochenen Anrufbeantworters vermittelt. Dies hat
leider oftmals zur Folge, dass der Anrufer sich falsch aufgehoben fühlt und das
Gespräch genervt abbricht, bevor er die Gelegenheit hatte, die Innovationen und
Vorteile eines Sprachdialogsytemes zu erfassen.
Hier wird an falscher Stelle gespart, da Sprachaufnahmen und Sounddesign das
Bindeglied zwischen Anrufer und System darstellen. Die vom System
wiedergegebenen Sprachaufnahmen sind der virtuelle Gesprächspartner des
Unternehmens mit dem der Anrufer in Kontakt tritt. Stimme, Sprechart, Text und
Sounddesign vermitteln das Image einer Anwendung und somit auch das des
dahinter stehenden Unternehmens.
Audioinhalte von Telefonsystemen sollten also nicht nur gut durchdacht sein und in
professioneller Umgebung mit ausgebildeten Sprechern und Sounddesigner
produziert werden, sie sollten vielmehr auch im Hinblick auf die Zielgruppe und auf
die zu vermittelnden Firmen- und Produktwerte umgesetzt werden.
Audioinhalte haben eine hohe emotionale Wirkung, sie sind die Verpackung und die
Schnittstelle zum Kunden und leisten folglich einen entscheidenden Beitrag dazu, ob
sich der Anrufer in einer Sprachanwendung gut aufgehoben fühlt.
Welche Punkte sollten also bei der Produktion von Audioinhalten für Voice-
Anwendungen beachtet werden?
2
1 Personakonzept
Das Audiodesign von Sprachanwendungen setzt zunächst einmal eine gründliche
Planung voraus. Hier gilt es zunächst herauszufinden, welches Image die
Anwendung verkörpern soll und wen wir mit der Anwendung ansprechen wollen.
Daraus lässt sich dann der Wunschkommunikationspartner des Anrufers ableiten,
der als Vorlage für die Texterstellung sowie für die Auswahl des Sprechers für die
Voiceprompts dienen soll.
Als besonders hilfreich hat sich in diesem Zusammenhang die Erstellung eines
„Personakonzepts“ bewährt. Im Personakonzept werden alle wichtigen Merkmale
des virtuellen Gesprächspartners zusammengefasst. z.B. ist das System
personalisiert oder neutral, jugendlich modern oder sachlich seriös, männlich oder
weiblich, soll hochdeutsch oder mit regionaler Einfärbung gesprochen werden etc.
Das Personakonzept ist nicht nur Basis für die Texte der Prompts und
Sprecherauswahl, es hat sich auch als äußerst hilfreiches Dokument bei der
Produktion bewährt. Professionelle Sprecher sind meist Schauspieler aus dem
Filmsynchron, die während der Aufnahme die Rolle der Persona spielen. Diese muss
darüber hinaus vom Regisseur im Tonstudio genau definiert und überwacht werden.
Das Personakonzept fasst alle wichtigen Eckpunkte dieser Rolle zusammen und hilft
Sprecher und Sprachregisseur diese einfacher zu erfassen.
2 Der richtige Sprecher
Haben wir einmal die Persona definiert, gilt es nun einen entsprechenden Sprecher
zu finden. Dieser sollte nicht nur tonal der Persona entsprechen und die Rolle spielen
können, er sollte auch fähig sein, die besonderen Anforderungen, die die Aufnahme
von Prompts mitbringen, zu erfüllen.
In größeren Telefonsystemen haben wir es häufig mit Aufnahmen zu tun, die an
verschiedenen Stellen im System mit anderen Aufnahmen zusammengefügt
(konkateniert) werden. Um eine konsistente Stimmung und einen möglichst
natürlichen Sprachfluss zu gewährleisten, muss der Sprecher in der Lage sein, über
mehrere Stunden, manchmal gar über mehrere Tage, eine einheitliche Stimmung
durchhalten zu können.
Zudem müssen bei der Aufnahme von dynamischen Inhalten, wie beispielsweise
Datumsangaben oder Geldbeträgen, die oftmals aus einzelnen Wörtern
zusammengesetzt werden, genaue Betonungen getroffen werden. Das ist meist
recht umfangreich und erfordert einiges an Konzentration.
3 Das richtige Studio
Die zuvor genannten Aufgaben sollten allerdings nicht allein vom Sprecher bewältigt
werden. Wichtig ist an dieser Stelle auch die Sprachregie. Dem Techniker und/oder
Sprachregisseur der die Sprachaufnahmen begleitet, fällt bei Aufnahmen für
Sprachdialogsysteme, ein besondere Rolle zu. Er muss nicht nur die Technik
überwachen, er muss auch den Sprecher dahingehend coachen, dass die vielfältigen
Verknüpfungen von Audiofiles im System harmonieren und die Betonungen der
konkatenierten Audiofiles stimmen.
3
Darüber hinaus muss bei Aufnahmen für Sprachdialogsysteme darauf geachtet
werden, dass die Keywords des Systems beim Sprechen so hervorgehoben werden,
dass diese vom Anrufer gut verstanden werden und der natürliche Sprechfluss
dennoch bestehen bleibt.
Dies setzt voraus, dass der Techniker oder Regisseur mit den besonderen
Anforderungen, die die Telefonsysteme an die Produktion stellen, vertraut ist. In
„traditionellen“ Tonstudios, die sonst eher die klassischen Felder Werbung, Musik
oder Synchron bedienen, ist dies nicht unbedingt der Fall. Es reicht also nicht aus,
die Liste mit den aufzunehmenden Prompts einfach an ein beliebiges Tonstudio zu
schicken und dann auf die Fertigstellung der Files zu warten.
Techniker und/oder Regisseur sollten möglichst über Erfahrung im Multimediabereich
verfügen und in jedem Fall mit der Dialogstruktur des Systems vertraut gemacht
werden.
Auch das Format von Audiofiles, die über das Telefon übertragen werden, stellt
besondere Anforderungen an die Produktion. Wir haben es am Telefon mit einem
extrem eingeschränkten Frequenz- und Dynamikbereich zu tun, was Auswirkungen
auf die Sprachverständlichkeit haben kann.
Der Techniker im Tonstudio sollte sich also dieser Problematik bewusst sein und
über das nötige Know-How sowie die technische Möglichkeiten verfügen, um die
Sprachverständlichkeit am Telefon zu überwachen.
4 Der richtige Text
Ein weiteres wichtiges Thema bei der Audioproduktion für Sprachdialogsysteme stellt
der Text dar. Der Texter ist ein weiterer Posten, an dem leider häufig gespart wird.
Die Folge sind oft technisch „klingende“ Texte, die dann irgendwie im Sinne einer
Persona umgesetzt werden sollen.
Ein professionelles Texting ist unumgänglich für ein schlüssiges Gesamtkonzept.
Tonstudio und Stimme können noch so gut sein; wenn der Input nicht stimmt, wird
auch das Ergebnis nicht stimmig sein.
Beim Texten gilt es neben der Vermittlung von Inhalten und Persona aber auch
darauf zu achten, dass die Texte sprechertauglich formuliert werden. Ein Text, der
gesprochen werden soll, muss anders getextet werden als ein gelesener, nicht nur
um wichtige Informationen wie z.B. Keywords optimal zu vermitteln, sondern auch
um dem Sprecher Zeit zum Atmen und zum Schauspielen zu geben.
Lange Schachtelsätze, voll gepackt mit Informationen und Erklärungen sind oft gut
gemeint, führen aber nicht nur beim Sprechen zu unnatürlich und holprig klingenden
Prompts, auch der Anrufer hat meist Probleme, sich die wichtigen Punkte zu merken.
Sätze sollten kurz und prägnant sein und die Keywords so gesetzt werden, dass sie
nicht unnatürlich überbetont werden müssen, aber dennoch optimal vermittelt
werden.
4
Fazit
Die Produktion von Audioinhalten ist ein wichtiger Bestandteil bei der Entwicklung
von Sprachdialogsystemen. Sie sind das Element, mit dem der Anrufer direkt in
Kontakt tritt und interagiert.
Folglich sollten die Audioinhalte einem Standard entsprechen, die dem jeweiligen
System und dem dahinter stehenden Unternehmen gerecht wird. Tontechniker,
Regisseur, Sprecher und Texter sollten also mindestens über den gleichen Grad an
Know-How in der Produktion für Sprachanwendungen verfügen wie
Anwendungsentwickler und Dialogdesigner. Nur so kann ein in sich schlüssiges
Produkt erreicht werden.
Hierbei sind nicht nur die Firmen, die Sprachdialogsysteme erstellen, gefragt, auch
den Unternehmen in dessen Namen das System produziert wird kommt eine
entscheidende Rolle zu. Denn über das Audiodesign der eigenen Sprachanwendung
sollte ein Unternehmen mindestens genau so gründlich nachdenken, wie über die
Farbgebung und Menüstruktur ihrer Website. Nur so kann erreicht werden, dass der
Kunde optimal angesprochen wird, was nicht zuletzt auch zu einer verbesserten
Akzeptanz des Kunden gegenüber einer oft ungewohnten, da neuen, Technologie
führt.