www. SATIS. de

(31.01.07)


Tipp-Bereich 8:  Sprachausgaben, Textlesesysteme (G 56-65)
Tipp-Gruppe 57: "Teure" Sprachausgaben (1)

Tipp 57-3 : Sprachausgaben Hörproben 1 (Burkhardt/Frötschl)

Kurz-Info

Auf den Internetseiten ttssamples.syntheticspeech.de/deutsch/ und www.8hertz.com/tts/tts.html kann man sich eine große Anzahl von Hörproben zu synthetischen Sprachausgaben anhören. Dies kann für die Kaufentscheidung behilflich sein. Im Tipp folgen weitere Details.

Beschreibung

Nachfolgend werden zwei sehr ähnliche Hörprobenseiten für Sprachausgaben von
A. Felix Burkhardt
und
B. Bernhard Frötschl
vorgestellt (Stand Dezember 2005). Aktuellere Informationen erhält man nur über die angegebenen Webseiten selbst.

A. Felix Burkhard

Quelle: ttssamples.syntheticspeech.de/deutsch/

Firma/Link Name Technologie Sprachen ( internet abk.) Stimme Jahr (ungef.) Satz 1 Satz 2 Satz 3
Acapela Group (Babeltech / Infovox / Elan)
logo

logo

logo
Elan's SaySo non-uniform unit-selection DE, US, FR, IT, ES Lea 2003 mp3 mp3 mp3
Elan's Tempo Diphon Verkettung (PSOLA). Pitch Synchronous Overlap und Add: Ein sehr bekannter Algorithmus zur Anpassung von Melodie und Dauerstruktur, durch den das Diphon-Verkettungs Verfahren für viele Jahre sehr erfolgreich wurde. DE, US, UK, FR, ES, IT, BR, PT, RU, PL Thomas 1998 mp3 mp3 mp3
Dagmar 1996 mp3 mp3 mp3
Babeltech's BrightSpeech non-uniform unit-selection DE, FR, NL, ES, SE, US Ingrid 2002 mp3 mp3 -
Sarah 2003 mp3 mp3 mp3
Babeltech's Babil Diphon Verkettung basierend auf der kommerziellen Version der Mbrola-engine. MBROLA (Multi Band Resynthesis Overlap und Add), ist ein PSOLA-ähnliches Verfahren, die Datenbasis wird aber im Vorfeld bezüglich der Amplitude, Pitch und spektralen Eigenschaften angepasst. DE, US, UK, ES, FR, NL, BE, BR, PT, IT, SE, NO, DK, FI, IS, TR, CZ, SA Eva 2000 mp3 mp3 mp3
Greta 2000 mp3 mp3 mp3
Helga (8 kHz) 2000 mp3 mp3 mp3
Gerhard (8 kHz) 2000 mp3 mp3 mp3
Steffen 1997 mp3 mp3 mp3
Infovox 330/Infovox Desktop Diphon Verkettung (vermutlich gleich Babil). Infovox 310 ist die Apple-Version DE, UK, DK, NL, FI, FR, IS, IT, NO, ES, SE Helga 1996 mp3 mp3 -
Gerhard mp3 1996 - - -
Infovox 210/230 Formant Synthese (Nachfolger von KTH's OVE, ursprünglich von Telia promotor) DE, UK, DK, NL, FI, FR, IS, IT, NO, ES, SE - 1994 mp3 mp3 -
Infovox Desktop PRO non-uniform unit-selection, identisch mit Babeltechs BrightSpeech
Aculab
logo
- Diphon Verkettung mit LPC kodierten Einheiten. LPC (linear predictive coding) ist ursprünglich ein Komprimierungsverfahren, das gut für Sprachsynthese verwendet werden kann, da es auf dem beliebten Quelle-Filter Sprachmodell basiert. DE, UK, US, FR, BR, IT, ES Julia 1998 mp3 mp3 -
Atip
logo
Proser NLP-Komponente und Stimmen von Atip, Mbrola Engine (Diphon Verkettung) von Babeltech DE, US Carla 2000 mp3 mp3 mp3
Eva 2000 mp3 mp3 mp3
Steffen 1997 mp3 mp3 mp3
Erkan (mit türkischem Akzent) 2004 mp3 mp3 mp3
Fifi (mit französischem akzent) 2004 mp3 mp3 mp3
AT&T
logo
Natural Voices non-uniform unit-selection DE, US, UK, FR, MX* Klara 2001 mp3 mp3 mp3
Reiner 2002 mp3 mp3 mp3
Bell-Labs (Lucent)
logo
- LPC-kodierte Diphon-Verkettung DE, FR, ES, US, UK, IT, RU, RO, CN - 1997 mp3 mp3 -
Cepstral
logo
- non-uniform unit-selection DE, UK, US, ES, FR, EG, TH, AF Katrin 2003 mp3 mp3 mp3
Matthias 2003 mp3 mp3 mp3
Fonix
logo
Dectalk regelbasierte Formant Synthese (der legendäre Formant Synthesizer, basiert auf Klatt's MITTalk) DE, US, UK, ES, MX*, FR - 1982 mp3 mp3 -
GData
logo
Logox Microsegmentsynthese, Verkettung subphonemischer (kürzer als ein Phonem) Einheiten DE, US, UK - 2000 mp3 mp3 -
Bill 1998 mp3 mp3 mp3
Bill schwäbischer Akzent 2002 mp3 mp3 mp3
Bill hessischer Akzent 2002 mp3 mp3 mp3
Bill sächsischer Akzent 2002 mp3 mp3 mp3
Bill französischer Akzent 2002 mp3 mp3 mp3
IBM
logo
CTTS non-uniform unit-selection, basierend auf R. Donovan's Verfahren DE, US, UK, JP, KR, IT, ES, FR männlich 2002 mp3 mp3 mp3
8kHz
weiblich mp38kHz 2004 - - -
Loquendo
logo
ursprünglich Actor genannt, jetzt Loquendo TTS non-uniform unit-selection DE, IT, ES, FR, BR, PT, CN, UK, US, MX, GR, CL, AR, SE Ulrike 2001 mp3 mp3 mp3
Stefan 2003 mp3 mp3 mp3
Katrin 2003 mp3 mp3 mp3
Nuance (früher Scansoft)
logo
RealSpeak (ursprünglich von Lernout & Hauspie), erste deutsche kommerzielle unit-selection TTS non-uniform unit-selection DE, NL, PT, CA, CN, ES, DK, PT, FR, IT, JP, KR, MX, NO, PL, RU, SE, US, UK Steffi (8 kHz) 2004 mp3 mp3 mp3
Vera (8 kHz) 1999 mp3 mp3 mp3
a href="http://www.scansoft.com/speechify/"-->Speechify früher von SpeechWorks non-uniform unit-selection DE, US, UK, AU, JP, MX*, FR, BR, CA(FR) Tessa 2002 mp3
mp3
mp3
a href="http://www.scansoft.com/realspeak/rvoice/"-->RVoice, früher Rhetorical non-uniform unit-selection DE, UK, US, GR, ES F018 2002 mp3 mp3 mp3
M027 2004 mp3 mp3 mp3
F026 2004 mp3 mp3 mp3
Vocalizer 4.05 (von Nuance vor dem Aufkauf durch Scansoft) non-uniform unit-selection DE, US, UK, AU, CA(FR), MX*, BR Anna Weber 2004 mp3 mp3 mp3
Vocalizer 1.0 (von Nuance vor dem Aufkauf durch Scansoft) non-uniform unit-selection (lizensierte Technologie von Fonix) DE, US, UK, NL, FR, IT, NO, ES, SE - 2001 mp3 mp3 -
a name=eloquent>ETI Eloquence, (ursprünglich von Eloquent Technologies, dann Speechworks) auch an IBM lizensiert (ViaVoice Outloud) regelbasierte Formant Synthese DE, UK, US, ES, MX, FR, CA(FR), IT, FI, BR, CN, JP, KR - 1998 mp3 mp3 -
TTS3000 (ursprünglich Lernout & Hauspie) Diphon Synthese DE, US, UK, NL, FR, RU, ES, MX, BR, CN, KR Stefan 1996 mp3 mp3 -
Anna mp3 1996 - - -
TruVoice (ursprünglich Centigram, später Lernout & Hauspie) Formant Synthese DE, US, MX*, FR, IT - 1996 mp3 mp3 -
SVOX
logo
kommerzielle Version des ETH-Zuerich Systems. Diphon Synthese DE, FR, IT, US, ES Nicole 2000 mp3
mp3
-
Corporate Non-Uniform Unit-Selection DE, US Petra 2005 mp3 mp3 mp3
Markus 2005 mp3 mp3 mp3
Marlene 
mp3 2003 - - -
VoiceINTERConnect
logo
Kommerzielle Version des Dress Synthesizer. Diphon Synthese DE male voice 2000 mp3
mp3
mp3
female voice 2000 mp3
mp3
mp3

B. Bernhard Frötschl

Quelle: www.8hertz.com/tts/tts.html


kommerzielle Systeme


Firma, Produkt Note Beschreibung Testsätze in mpeg3
Acapela, Babil, ehemals Babeltech
 3- Diphon-Konkatenation von MBROLA, benutzt die gleiche Technologie wie Language Dynamics, VoicePro, Stimmen Eva, Steffen
18.11.2003: Wird jetzt Babil Version 4.1 genannt - Interaktive Demo, Stimmen Eva, Helga, Gerhard
Eva 16 kHz s1 s2
Steffen 16 kHz s1 s2
Eva 22 kHz s1 s2
Gerhard 8 kHz s1 s2
Helga 8 kHz s1 s2
Acapela, BrightSpeech, ehemals Babeltech
2-
Non Uniform Unit Selection, Zeitbereich-Konkatenation, Ingrid 22kHz hat "französischen Akzent", Interaktive Demo
21.5.2003: Version 1.1 leicht besser als 1.0
23.9.2003: Neue deutsche Version mit anderer Stimme Sarah, z.Z. nur als Demo-Sample verfügbar
18.11.2003: Brightspeech 1.2 Ingrid online verfügbar - immer noch leicht französicher Akzent, immer noch 2- für diese Version.
3.12.2003: Neue Stimme Sarah ohne Akzent, klingt aber schlechter als das  Demo-Sample. Probleme bei Abkürzungen (Gramm. wird als Grammatisch gesprochen). Unnatürliche Schwankungen in der Lautstärke - immer noch 2- für diese Version.

Ingrid 1.0 16 kHz s1 s2
Ingrid 1.1 22 kHz s1 s2
Ingrid 1.2 22 kHz s1 s2 s3
Ingrid 1.2 8 kHz s1 s2
Sarah-Demo 1.2 22 kHz e1
Sarah-Demo 1.2 8 kHz e1
Sarah 1.2 22 kHz s1 s2
Sarah 1.2 8 kHz s1 s2
Acapela, Elan Sayso bzw. Speechissimo, ehemals ELAN Speech
 2- 17.11.2003: Diphon-Konkatenation aus Frankreich, Interaktive Demo. Version  Elan Sayso 4.6 Premium mit Stimme Lea. Elan war zwischenzeitlich (Mai 2000) eine Lernout & Hauspie Firma, ist jetzt wieder eigenständig. Benutzt vermutlich die gleiche Technologie wie Realspeak, wirkt aber ausgereifter. Die gleiche Technologie und Stimme ist in Speechissimo enthalten, dieses Produkt ist z.Z. nur für Mac OS X verfügbar. Leichte, etwas unnatürlich wirkende Lautstärkeschwankungen innerhalb von einzelnen Worten.
Lea 22 kHz s1 s2 s3
Lea 8 kHz s1 s2
Acapela, Elan  Tempo bzw. Digalo, ehemals ELAN Speech  3- 17.11.2003: Diphon-Konkatenation aus Frankreich, Interaktive Demo, war zwischenzeitlich (Mai 2000) eine Lernout & Hauspie Firma - jetzt wieder eigenständig, auch im Produkt Text Aloud der Firma Nextup verfügbar Thomas s1 s2
Dagmar s1 s2
Acapela, Infovox 230, ehemals Babeltech
 4- Formant-Synthese von Telia aus Schweden (Nachfolger von KTH's OVE). Demo s1 s2
Acapela, Infovox 330, ehemals Babeltech
 4
Diphon-Konkatenation von Telia aus Schweden. Demo s1 s2
Aculab, Aculab TTS  3- Diphon-Konkatenation Alt s1 s2
Neu s1 s2
ATR,
CHATR
 3
Non Uniform Unit Selection, Zeitbereich-Konkatenation von ATR, Japan. schweizerischer Dialekt. Deutsch wird aber z.Z. scheinbar nicht weiterentwickelt.
17.11.2003: Emotionales CHATR - Wavs, Nachfolger NATR
e1
AT&T, AT&T Natural Voices
 2- Non Uniform Unit Selection, Zeitbereich-Konkatenation, Interaktive Demo,
17.11.2003: auch im Produkt Text Aloud verfügbar
Klara 16 kHz s1 s2 s3
Klara 8 kHz s1 s2
Reiner 16 kHz s1 s2 s3
Reiner 8 kHz s1 s2
Mr. X 16 kHz e1
Atip, Proser 3
Diphon-Konkatenation von MBROLA, NLP-Komponente von Atip,
24.2.2003: Interaktive Demo mit mehreren Stimmen
30.6.2004: Neue Stimmen Erkan (Deutsch mit türkischen Akzent) und Fiffi (Deutsch mit französischem Akzent)
Eva s1 s2
Steffen s1 s2
Carla s1 s2
Erkan s1 s2
Fiffi s1 s2
Cepstral
3
22.3.2004: Non Uniform Unit Selection. Neue Firma, die seit etwa 2001 existiert. Deutsche Simmen Katrin und Matthias, Interaktive Demo. TTS auch im Produkt Text Aloud der Firma Nextup verfügbar

Katrin s1 s2 s3
Matthias s1 s2 s3
First Byte
 5- Zeitbereich-Konkatenation
17.1.2003: Link zur Firma First Byte www.fbyte.com funktioniert nicht mehr - die Firma scheint nicht mehr zu existieren
e1
Fonix, DecTalk
 5
Zählte vor ca. 10 Jahren zu den besten Sprachsynthese-Systemen, Abkömmling von MITalk und Klattalk, wurde von Digital Equipment Corporation weiterentwickelt, dann an Compaq und zuletzt an Fonix weiterverkauft. Demo-Software und Dokumentation s1 s2
Fonix, Speakthis   5+ Interaktive Demo Speakthis, Technolgie wird im Vocalizer 1.0 von Nuance verwendet. s1 s2
GDATA, LOGOX  4- 14.9.2004: Mikrosegmentsynthese, gleiche Technologie wie frühere Version (ca. 1999) von MARY (DFKI), die ebenfalls Mikrosegmentsynthese verwendete
Bill (Logox4) s1 s2
Dame s1 s2
IBM, Viavoice Outloud  4- regelbasierte Formantsynthese (nach Klatt), benutzt die gleiche Technologie wie Scansoft, ETI Eloquence s1 s2
IBM, CTTS WebSphere Voice Server
 3
Non Uniform Unit Selection, Zeitbereich-Konkatenation, basierend auf Ansatz von Robert Donovan, Interaktive Demo
8 kHz 8bit mulaw s1 s2 s3
64 kHz s1 s2
Keller & Trauth, SpeakEaZy
 4- Zeitbereichs-Konkatenation.
17.1.2003: Die Firma und Produkt (www.speakeazy.de) scheinen nicht mehr zu existieren.
e1
Language Dynamics, VoicePro

 3- Diphon-Konkatenation von MBROLA, benutzt die gleiche Technologie wie Babeltech / MBROLA
17.11.2003: VoicePro = WinDi Multilingual Speech Producer, WinDi ist Übersetzungssoftware für 7 Sprachen
Eva s1 s2
Steffen s1 s2
Loquendo, Loquendo TTS   2
Non Uniform Unit Selection, Zeitbereich-Konkatenation, Interaktive Demo,
15.1.2003: Neue Stimme Stefan => Bewertung 2 (Ulrike nur 3+)
18.11.2003: Für das Produkt wird jetzt nicht mehr die Bezeichnung Actor, Loquendo TTS verwendet.
2.4.2004: Neue Stimme Katrin in Actor5, Interaktive Demo jetzt nur noch mit Beimischung von Hintergrundsound verfügbar, dadurch schlecht beurteilbar.


Ulrike(Actor alt) s1 s2
Ulrike (Actor 5) s1 s2 s3
Stefan (Actor 5) s1 s2 s3
Katrin (Actor 5) s1 s2 s3
Lucent Technologies, Bell-Labs
 3- LPC-Diphon-Konkatenation
17.11.2003: Ev. im Phonebrowser enthalten??
s1 s2
Nuance, Nuance Vocalizer 1.0
 5+ Technologie aus Fonix 4.0 bzw. Fonix, Speakthis  s1 s2
Rhetorical, rVoice 4  2
Non Uniform Unit Selection, Zeitbereich-Konkatenation, nur weibliche Stimme F018 verfügbar, Interaktive Demo
10.12.2003: Neue Version 4.2 -> Note 2.
25.3.2004: Neue bilinugale Stimmen deutsch/englisch  M027 und  F026, für F026 keine Demo verfügbar
rVoice 4.0 F018 16 kHz s1 s2
rVoice 4.0 F018 11 kHz s1 s2
rVoice 4.0 F018 8 kHz s1 s2
rVoice 4.2 F018 16 kHz s1 s2 s3
rVoice 4.2 F018 11 kHz s1 s2
rVoice 4.2 F018 8 kHz s1 s2
rVoice 4.2 M027 16 kHz s1 s2 s3
rVoice 4.2 M027 8 kHz s1 s2
Scansoft, Centigram's TruVoice, ehemals Lernout & Hauspie  5+ Formant-Synthese
17.11.2003: Produkt scheint nicht mehr zu existieren
s1 s2
Scansoft,  Diphon-Konkatenation, ehemals Lernout & Hauspie  5 Diphon-Konkatenation
17.11.2003: Produkt scheint nicht mehr zu existieren
s1 s2
Scansoft, ETI Eloquence, ehemals Speechworks, noch früher Eloquent Technology Inc.  4- regelbasierte Formantsynthese (nach Klatt); benutzt die gleiche Technologie wie Viavoice Outloud von IBM.
ETI Eloquent's white paper 1997
s1 s2
Scansoft RealSpeak, ehemals
Lernout & Hauspie

 2+
Non Uniform Unit Selection, Zeitbereich-Konkatenation, Interaktive Demo
26.5.2004: Neue Stimme Steffi, die etwas höher spricht und auch dadurch etwas besser verständlich ist - Note 2+ statt 2. Allerdings keine interaktive Demo verfügbar, deshalb zum besseren Vergleich eine der Scansoft-Demo von Steffi angepassten Version von Vera angefertigt
Vera 8 kHz s1 s2
Vera 22 kHz s1 s2 s3
Vera 22 kHz e1
Steffi 22 kHz e1
Scansoft Speechify 2.1, ehemals Speechworks
 2
Non Uniform Unit Selection, Zeitbereich-Konkatenation, Interaktive Demo
Tessa 16 kHz s1 s2 s3
Tessa 8 kHz s1 s2
SVOX AG, SVOX Genie
 3
17.11.2003: Diphon-Konkatenation mit Kompression  für Mobiltelefonie optimiert mit Speicherbedarf < 290KB. Kommerzielle Version von  SVOX der ETH Zürich
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
Nicole Genie e1
SVOX AG, SVOX Mobile
 3
17.11.2003: Diphon-Konkatenation mit Kompression für Mobiltelefone und Consumerelektronik optimiert mit Speicherbedarf < 1 MB. Kommerzielle Version von  SVOX der ETH Zürich
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
Nicole Mobile e1
SVOX AG, SVOX Smart
 3
17.11.2003: Diphon-Konkatenation für Automobil und PDAs optimiert mit Speicherbedarf 6-10 MB. Kommerzielle Version von  SVOX der ETH Zürich
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
Nicole Smart e1
SVOX AG, SVOX Speech Server
 2- ehemals Diphon-Konkatenation, Aussprache-Dauersteuerung mit MARS (Multivariate Adaptive Regression Splines), Tonhöhensteuerung mit rekurrentem neuronalen Netz. Kommerzielle Version von  SVOX der ETH Zürich
17.11.2003: Neue Stimme Marlene mit Non Uniform Unit Selection, immer noch leichter Schweizer Akzent. Zur Zeit ohne interkative Demo -> Note 2 statt 3+, Samples, alte Stimme Nicole wird noch in den Produkten SVox Genie, Mobile, Smart eingesetzt
2.4.2004: Stimme Marlene nach mehrmaligen Anhören auf 2- statt 2 gesetzt.
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
Nicole alt s1 s2
Nicole 1.3 s1 s2
Marlene e1
t & i, alte Version Eurovocs  6- Diphon-Konkatenation, Technologie von Lernout & Hauspie. e1
t & i, neue Version Eurovocs  4- Diphon-Konkatenation, Technologie von Lernout & Hauspie. e1
VoiceINTERconnect, DreSS 4+ Kommerzielle Version des Sprachsynthesizers DreSS der TU Dresden, Diphon-Konkatenation, Interaktive Demo
s1 s2

© Die Weitergabe der Tipps mit Quellenangabe ist gestattet.