www. SATIS. de

(04.05.09)


Tipp-Bereich 8:Sprachausgaben und Textlesesysteme
Tipp-Gruppe 59: Preiswerte Sprachausgaben (2)

Tipp 59-1 : SPR-Vergleich, Zeitschrift c't 8/2009

Kurz-Info

Im März 2009 wurden in der Zeitschrift CT 6 kostenlose oder preiswerte Sprachausgaben getestet. Der Test bezog sich allerdings nur auf normalsichtige Nutzer. Getestet wurden die Programme:
Für Windows: Balabolka, MWS Reader 4.0, Natural Voice Reader 5, TextAloud 2.3, Linguatec Voice Reader
Für Mac OS X: Ghost Reader
Hier folgt eine verkürzte, aber barrierefrei lesbare Version. Den vollständigen Artikel als PDF mit Testtabellen kann man hier downladen:
www.satis.de/www/56-65_sp/59_spr_2/59-1-ct.pdf
Weiterführende Links: www.ctmagazin.de/0908110

Test-Bericht von Dorothee Wiegand

Titel: Alles Weitere mündlich
Der PC liest Texte, Mails und Webseiten vor

Synthetische Stimmen klingen mittlerweile erstaunlich echt. Über manche Fremdwörter und Sonderzeichen stolpern die Kunst stimmen zwar noch – mit dem richtigen Vorleseprogramm kann man ihnen aber auf die Sprünge helfen.
Eine Sprachausgabe liest Surfern das Kleingedruckte eines Webformulars vor und macht langweiliges Diktat- Training ein bisschen spannender. Wenn die Rohfassung des Vortrags noch nicht überzeugt, hilft es vielleicht, das Manuskript als MP3 bei einem Spaziergang anzuhören, statt die Sätze erneut am Bildschirm durchzukauen. Auch wenn das elektronische Postfach überquillt, muss niemand Stunden am Schreibtisch zubringen. Die Mails lassen sich ebenso als Audio- Datei für unterwegs aufbereiten. Vorleseprogramme sehen auf den ersten Blick aus wie ein Editor. Textdateien lassen sich mit der Anwendung öffnen, alter nativ kann Inhalt per Copy & Paste ins Textfenster eingefügt oder hineingetippt werden. Start-, Stopp- und Pause- Knöpfe steuern die Sprachausgabe. Die eigentliche Vorlesefunktion steckt nicht in diesem Editor, sondern in sogenannten Stimm- Engines, die das Vorleseprogramm nutzt.

Stimmen hören

Synthetische Stimmen lassen sich heutzutage nach beliebigen Vorgaben erstellen. Unternehmen nutzen das beispielsweise, um einem Avatar auf der Firmen-Webseite eine Stimme mit hohem Wiedererkennungswert zu geben. Vorleseprogramme nutzen dagegen StandardStimm- Engines. Die Tabelle auf Seite 111 nennt Stimmen, die von unseren Testkandidaten verwendet werden. Die meisten synthetischen Stimmen werden lediglich als Systemkomponenten oder SDK verkauft. So bietet der Sprachspezialist Nuance seine Standalone- Anwendung RealSpeak So lo nicht mehr an. Die Nuance-Stimmen Steffi und Yannick sind aber weiterhin im Einsatz, unter anderem in Nuance- Produkten wie dem PDF Converter, in Navi gationsgeräten und neuerdings im E- Book- Reader Kindle von Amazon. Eine gute Übersicht über Stimmen für die Sprachausgabe findet man auf der Webseite des Informatikers Bernhard Frötschl ( die Adresse dieser und aller weiteren hier genannten Webseiten finden Sie unter dem Link am Ende des Artikels).
Künstliche Stimmen bestehen aus vielen kleinen Audio- Dateien, die aus Aufnahmen mit einem menschlichen Sprecher extrahiert wurden. Sie werden bei der Synthese nach linguistischen Regeln nahtlos an einandergereiht, sodass das Ergebnis wie kontinuierliche Sprache klingt. Ton-Schnipsel und Regeln bilden zusammen die Stimm- Engine. Die älteren Stimmen Anna und Stefan arbeiten mit der sogenannten Diphon- Konkatenation; einem älteren Verfahren, das noch recht künstlich klingt. Die Stimmen wurden von dem belgischen Hersteller Lernout & Hauspie entwickelt. Inzwischen sind sie frei verfügbar und lassen sich mit etwas Mühe auch in Windows Vista einrichten. Moderne Engines verwenden meist ein Verfahren namens „ Non Uniform Unit Selection", bei dem die Einheiten eine variable Länge haben, die bis zu ganzen Sätzen reicht. Solche Stimmen klingen deutlich natürlicher als ihre Vorfahren mit Diphon-Konkatenation. Ein Problem ist allerdings nach wie vor die Satzmelodie. Einerseits sollten besonders wichtige Wörter betont werden, andererseits wünscht man sich generell eine natürliches Heben und Senken der Stimme – die automatischen Zug- Ansagen auf Bahnhöfen etwa wirken durch ihr monotones Leiern emotionslos. Moderne Stimm- Engines enthalten auch Regeln für die Satzmelodie, in diesem Bereich gibt es aber noch Verbesserungspotenzial.

Testparcours

Unsere Testkandidaten richten sich an normal sehende Anwender und enthalten keine Spezialfunktionen, die blinden oder stark sehbehinderten Computernutzern die Arbeit erleichtern. Sie stellen die Lesefunktion auch nicht systemweit zur Verfügung, sondern vertonen lediglich, was im eigenen Textfenster steht und lesen markierten Text oder den Inhalt der Zwischenablage vor. Es sind die Windows-Programme Balabolka, MWS Reader 4.0, Natural Voice Reader 5, TextAloud 2.3 sowie Linguatec Voice Reader. Als einziger Kandidat für Mac OS X trat Ghost Reader an. Das Mac- Programm Speechissimo wird nicht mehr verkauft; bis Ende Mai 2009 besteht die Möglichkeit zu einem Cross- Update auf Ghost Reader. Wir ließen alle Kandidaten fünf Texte lesen. Der erste prüfte die Kenntnis von Fremd- und Lehnwörtern wie Airbag, Sushi oder Portemonnaie. Der zweite enthielt Abkürzungen und Maßangaben und im dritten ging es um Zahlen und Sonderzeichen, etwa in Geldbeträgen oder Datumsangaben. Text vier versammelte fiese Wörter wie händeringend oder Waffeleisen, was von Kunststimmen gern als „Waffeleisen" ausgesprochen wird. Die letzte Datei überprüfte die Fähigkeit zur richtigen Betonung. Natural Voice Reader enthält nur die Stimme Reiner; wer eine Frauenstimme bevorzugt, muss Kollegin Klara zukaufen. Auch Voice Reader kommt mit einer fest eingebauten Stimme: Hier liest Petra von SVOX. Bei Text -Aloud kann man zwischen Stimmen von Acapela, Nuance, AT&T und Cepstral wählen. Balabolka und MWS Reader lassen sich mit den ziemlich nervtötenden Stimmen von Anna und Stefan ausprobieren. Das kostenlose Balabolka funktioniert auch mit Cepstral-Stimmen. Diese Stimm-Engines sind eine relativ junge und sehr interessante Entwicklung.
Die trotz Non Uniform Unit Selection vergleichsweise kleinen Dateien enthalten die Mini-Anwendung „SwiftTalker", welche die Sprachsynthese auch ohne eine zusätzliche Anwendung möglich macht. Cepstral entwickelt Stimmen für unterschied liche Hardware in Versionen für Windows, Mac OS X, Linux und Solaris. Demos von Katrin und Matthias und sogar Hundegebell gibt es im Web. Sie unterscheiden sich von der Vollversion dadurch, dass sie in unregelmäßigen Abständen Sätze wie „Bitte lizenzieren Sie mich!" einstreuen.
In der Checkliste auf Seite 113 ist notiert, welche Datei-Formate ein Testkandidat öffnet und welche Audio-Formate er erstellt. Um einen ganzen Schwung Mails gleichzeitig zu konvertieren, muss die Anwendung die Batch-Verarbeitung beherrschen. Wichtiges Zubehör ist ein Aussprache-Editor, mit dem man dem Programm die Aussprache unbekannter Wörter beibringen kann.

Balabolka

Der Autor Ilya Morozov entwickelte die Freeware Balabolka zunächst als Aussprache-Hilfe für eine Lernsoftware. Inzwischen hat sie sich zu einer eigenständigen Anwendung gemausert. Die Regeln für die Aussprache-Korrektur benutzen – für linguistische Anwendungen un gewöhnlich – die Syntax von VBScript. So sorgt beispielsweise die Zeile @stiefel=schtiefel für die richtige Aussprache des „st". Für das Problem der Homonyme – Wörter mit gleicher Schreibung, aber unterschiedlicher Aussprache – hat der Autor eine unkonventionelle Lösung eingebaut: Man kann Texte untersuchen und sich für mehrdeutige Wörter Aussprache-Varianten anzeigen lassen, etwa „Tenor" mit Betonung auf der zweiten Silbe und „Teenor". Wählt man letzteres, fügt das Programm ein „e" in den Text ein und liest das nicht ganz Duden-konforme Ergebnis wie gewünscht vor. Die Lupen-Funktion sieht zwar schick aus, kommt aber unter Vista nicht mit Aero klar.
Wer nur mal neugierig ist, aber kein Geld ausgeben möchte, kann mit den kostenlosen L&H-Stimmen experimentieren, für mehr Hörvergnügen sollte man dem Vorleser zum Beispiel Katrin oder Matthias von Cepstral spendieren.

GhostReader

Der Mac-Vorleser verwendet die deutschen Stimmen Sarah und Klaus. Sie hatten mit keinem der Testtexte große Schwierigkeiten. Bodyguard und Motherboard verunglückten zwar und Renderer klang merkwürdig französisch, doch die meisten Fremdwörter waren gut zu verstehen. Auch bei den Abkürzungen gab sich Ghost Reader souverän und sprach MEZ, Dipl.-Ing., Ggs. und StVO als ganzes Wort. Datumsangaben und Geldbeträge gelangen vorbildlich, schwieriger waren da schon Waffeleisen und Eintrittspreis. Für die beiden Sätze „Der Tenor des Briefes machte ihn stutzig" versus „Der Tenor sang die Arie mit Inbrunst" wählte Ghostreader einen guten Mittelweg, sodass das Homonym in beiden Fällen akzeptabel klang. GhostReader hält sich diskret im Hintergrund, bis der Anwender Text markiert und zum Lesen auffordert. Nun öffnet sich das Textfenster mit Knöpfen zum Vor- und Zurückspulen sowie zum Sprung an den Anfang eines Satzes oder Absatzes. Auch zum Auslassen von Sätzen oder Absätzen gibt es Schaltflächen. Falls die entsprechende Funk ion aktiviert ist, liest Ghost Reader Text, der sich unter dem Cursor befindet, in Anwendungen wie Safari, Pages oder Text Edit aus dem Off vor, ohne dass der Anwender dazu etwas tun müsste.
Mit einer einfachen Lautschrift aus 54 Zeichen kann man nachbessern, falls das Programm ein Wort nicht kennt. Ein langes i wird hier etwa durch „i:" gekennzeichnet. Sowohl für Buchstaben als auch für Zahlen bietet Ghost Reader einen gesonderten Modus „literal", mit dem Wörter buchstabiert und Zahlen Ziffer für Ziffer gesprochen werden.
Die kostenlose Demo läuft 15 Tage lang ohne Einschränkungen, wobei nur Tage zählen, an denen das Programm ausgeführt wird.

MWS Reader 4.0

Über sechs Reiter am oberen Rand des Programmfensters bewegt man sich durch das Funktionsangebot des MWS Reader. Zum Vorlesen von E-Mails gibt es ein eigenes Registerblatt, das Programm fragt nur den Standard-Posteingang von Outlook oder Outlook Express ab, also beispielsweise keine IMAP-Ordner. Über den Reiter Wecker gelangt man zu einem Fenster, in dem eine Textbotschaft hinterlegt werden kann, mit der sich der Rechner zu einem festgelegten Zeitpunkt zu Wort meldet.
Der Hilfe-Reiter verspricht zu viel –klickt man hier, gelangt man auf die Webseite des Herstellers. Das Programm hat keinerlei Hilfe integriert und auf der Webseite findet man diese auch nicht. MWS Reader liest auf Wunsch sämtliche System-und Programmmeldungen vor. Markiert man Text im Internet Explorer und klickt anschließend mit der rechten Maustaste darauf, erscheint nach Einrichtung des Programms ein neuer Eintrag „Vorlesen mit MWS Reader 4" im Kontextmenü.
Das Lesen funktioniert hier aber nur, wenn man mit Administratorrechten surft oder die Benutzerverwaltung ganz lahmlegt. Künftige Versionen sollen laut Hersteller auch mit Cepstraloder Acapela-Stimmen lesen. Zurzeit besteht nur die Möglichkeit, MWS Reader mit den ver alteten Stimmen Anna und Stefan zu benutzen. Die kostenlose Demo-Version des Programms lässt sich 15-mal starten.

Natural Voice Reader 5

Bei Fremdwörtern zeigte sich Natural Voice Reader wenig kundig, nicht nur Airbag („Eierbaag") und Handout („Hand uut") gingen daneben, sondern sogar Baby („Bäbä") und Party („Patti"). Mit vielen Abkürzungen konnte das Programm ebenfalls nichts anfangen. Weder „Dipl.-Ing." noch „MWSt." sind der Stimme Reiner bekannt, ebenso wenig die Maßeinheit m für Meter oder g für Gramm. „St. Petersburg" las er zwar richtig vor, legte aber nach dem Punkt eine lange Pause ein. Sonderzeichen trug Reiner in unterschiedlicher Qualität vor: Einerseits las die Stimme als einzige im Test das Paragraphen-Zeichen richtig als „Paragraph", anderseits sagte sie jedes Mal recht niedlich „Ringel", wenn im Text ein Grad-Zeichen stand.
Obwohl fast alle Funktionen sowohl in der Menüleiste als auch in der darunterliegenden Icon-Reihe auftauchen, präsentiert sich die Oberfläche des Natural Voice Reader spartanisch. Von einigen Einstellmöglichkeiten macht man zudem lieber keinen Gebrauch: Wer die Option „Satzzeichen lesen" einschaltet, erhält fortan englische Satzzeichen-Wörter in den Text eingestreut, allerdings deutsch ausgesprochen; am Ende jedes Satzes ertönt nun etwa „Pärijood". Beim Audio-Export stellt das Programm sein Licht unter den Scheffel: Obwohl der dafür vorgesehene Knopf lediglich mit „Text in MP3" beschriftet ist, funktionierte auch der Export in andere Formate im Test ordentlich. In Microsoft Outlook taucht nach Einrichtung des Natural Voice Reader eine zusätzliche Symbolleiste auf, die das Programm zum Vorlesen von Mails per Plug-in einrichtet.
Praktisch gelöst ist das Vorlesen von markierten Textpassagen in beliebigen Anwendungen. Die Tastenkombination Strg+F9 startet die Sprachausgabe, solange Natural Voice Reader im Hintergrund aktiv ist.

TextAloud 2.3

Das englischsprachige Text-Aloud haben wir mit den Acapela-Stimmen Sarah und Klaus getestet und zusätzlich mit Cepstral-Stimmen ausprobiert. Im Fremdwörter-Test sprach Sarah einige Begriffe etwas klarer aus als Klaus, Anchorman und Stuntman gelangen ihr akzeptabel, während die männliche Stimme diese Wörter stark nuschelte.
Bei den Abkürzungen gab es Licht und Schatten: MEZ, Chr. und StVO gelangen vorbildlich, m für Meter und g für Gramm sind diesen Stimm-Engines hier unbekannt – in Ghost Reader zeigten sich dieselben Stimmen bei diesen Testsätzen deutlich versierter.
In der Datumsangabe 10.08.2009 liest das Programm die Punkte als „Dot", dagegen entzifferte es die anglo-amerikanische Schreib weise 3/2/2009 korrekt als „dritten Februar zweitausendundneun". Das Eurozeichen ist nicht bekannt und wird verschluckt, aus „1,92 Euro" wird „eins Komma zweiundneunzig Euro".
Auf Wunsch überwacht Text-Aloud die Zwischenablage, wo bei man einstellen kann, ab wie vielen Zeichen im Speicher es tätig wird. Ändert sich der Inhalt der Zwischenablage, so fragt das Programm nach, ob der neue Text an den vorhandenen Lesestoff angehängt werden oder diesen ersetzen soll.
Über den Eintrag „Insert Voice Change" aus dem Edit-Menü kann man bequem Steuerzeichen in den Text einfügen, die während des Lesens dafür sorgen, dass die Sprecherstimme wechselt. So lässt man beispielsweise mit <voice required="name = Cepstral Dog"> den Cepstral-Hund zwischendurch bellen. Sämtliche Einstellmöglichkeiten sind gut dokumentiert und sinnvoll in der Bedienoberfläche verstaut, die angenehm übersichtlich bleibt. Plug-ins für Firefox, Internet Explorer und Microsoft Outlook runden das durchdachte Programm ab.
Die Demo-Version von Text -Aloud, die keine Stimmen enthält, kann man 15 Tage lang testen. Für Mitte 2009 plant der Hersteller die Version 3.

Voice Reader

Als einziges Programm im Test bringt Voice Reader Avatare mit: Lara oder Julia lächeln den Anwender recht sexy an und bewegen während des Vorlesens den Mund. Zwischen zwei Texten schauen sie gelangweilt aufs Handy oder gähnen demonstrativ. Wer die Damen zu verspielt findet, kann sie abschalten.
Bei den Fremdwörtern schnitt die angenehme SVOX-Stimme gut ab. Highlight, Couch und Lotion trug sie fehlerfrei vor, patzte allerdings ausgerechnet bei One-Night-Stand. Viele Abkürzungen sind dem Programm bekannt, sogar StGB wurde als „Strafgesetzbuch" gesprochen. Schwierigkeiten hatte Voice Reader dagegen mit Punkten. So liest er „vom 7. bis 10.8.2009" etwa als „vom siebtens bis zehnter achter zweitausendundneun" und aus „DIN A4" wird „DIN A viertens", falls die Formatangabe am Ende eines Satzes steht; auch bei „Herr Dr. Müller" stört eine lange Pause nach dem Punkt. Die Sprach melodie gelingt dagegen recht überzeugend. Das Programm schaffte zwar keine Betonung von „das" in „Und das soll ich glauben?". Da aber Fragezeichen am Ende eines Satzes beim Voice Reader generell zu einem bemerkenswert natürlichen Heben der Stimme führen, klangen unsere Prosodie-Testsätze vergleichsweise gut.
Für Microsoft Word, Outlook und PowerPoint ab Version 2000 bringt Voice Reader Plug-ins mit. Als platzsparende Alternative zum Fenster der Hauptanwendung kann man bei der Arbeit mit allen anderen Anwendungen auch das kleinere Voice Reader Direct verwenden. Beim Audio-Export arbeitet Voice Reader auf Wunsch Hand in Hand mit iTunes.
Linguatec bietet das Programm außer in Deutsch noch für zehn weitere Sprachen an.
Das Programm verlangt noch vor der ersten Ausführung eine Registrierung beim Hersteller.

Fazit

Natural Voice Reader und MWS Reader konnten im Test nicht überzeugen. Die recht angenehme Stimme des Natural Voice Reader leistete sich zu viele Fehler, der MWS Reader bietet zurzeit nur veraltete Stimmen. Das kostenlose Balabolka überraschte mit einem Funktionsangebot, das längst nicht jeder kommerzielle Kandidat im Test vorweisen konnte. Zum Erstellen der eigenen Hörbücher eignet es sich nur in Verbindung mit kommerziellen Stimmen – Anna und Stefan möchte man nicht lange zuhören.
Voice Reader richtet sich an Anwender, die nicht hinter die Kulissen eines Programms schauen, sondern es nach der Einrichtung einfach nur noch benutzen und dabei Spaß haben wollen. Das Programm hebt sich nicht nur durch die beiden neckischen Avatarinnen von den anderen Testkandidaten ab – die SVOX-Stimme klingt auch besonders natürlich.
TextAloud glänzt unter den Programmen im Testfeld mit den meisten Funktionen. Spezialeffekte wie das Einfügen von Tags für einen Sprecherwechsel bieten ansonsten nur viel teurere Profi-Anwendungen. Wer vorhat, seinen PC intensiv zum Vorlesen zu nutzen und dabei unterschiedliche Stimmen hören möchte, liegt hier richtig – falls die englische Oberfläche nicht abschreckt.
Mac-Besitzern bietet Ghost Reader, das sich in allen Testdisziplinen recht clever verhielt, alle für die Sprachsynthese wichtigen Funktionen und zwei angenehme Stimmen in einer leicht bedienbaren Programmoberfläche.
Insgesamt hat die Sprachsynthese große Fortschritte gemacht. Auch knifflige Wörter haben die Programme mittlerweile mehr oder weniger im Griff. Die Betonung in Abhängigkeit von der Satzaussage ist aber noch weitgehend Zukunftsmusik. Ein solches Leseverhalten würde inhaltliches Verstehen voraussetzen – und das beherrschen Vorleser zurzeit noch nicht. (dwi)

Alle im Artikel genannten Links sind auf dieser Seite zu finden:
www.ctmagazin.de/0908110

© Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.