www. SATIS. de |
(31.01.07) |
Auf den Internetseiten ttssamples.syntheticspeech.de/deutsch/ und www.8hertz.com/tts/tts.html kann man sich eine große Anzahl von Hörproben zu synthetischen Sprachausgaben anhören. Dies kann für die Kaufentscheidung behilflich sein. Im Tipp folgen weitere Details.
Nachfolgend werden zwei sehr ähnliche Hörprobenseiten für Sprachausgaben von
A. Felix Burkhardt
und
B. Bernhard Frötschl
vorgestellt (Stand Dezember 2005). Aktuellere Informationen erhält man nur über die angegebenen Webseiten selbst.
Quelle: ttssamples.syntheticspeech.de/deutsch/
Firma/Link | Name | Technologie | Sprachen ( internet abk.) | Stimme | Jahr (ungef.) | Satz 1 | Satz 2 | Satz 3 |
---|---|---|---|---|---|---|---|---|
Acapela Group (Babeltech / Infovox /
Elan) |
Elan's SaySo | non-uniform unit-selection | DE, US, FR, IT, ES | Lea | 2003 | |||
Elan's Tempo | Diphon Verkettung (PSOLA). Pitch Synchronous Overlap und Add: Ein sehr bekannter Algorithmus zur Anpassung von Melodie und Dauerstruktur, durch den das Diphon-Verkettungs Verfahren für viele Jahre sehr erfolgreich wurde. | DE, US, UK, FR, ES, IT, BR, PT, RU, PL | Thomas | 1998 | ||||
Dagmar | 1996 | |||||||
Babeltech's BrightSpeech | non-uniform unit-selection | DE, FR, NL, ES, SE, US | Ingrid | 2002 | - | |||
Sarah | 2003 | |||||||
Babeltech's Babil | Diphon Verkettung basierend auf der kommerziellen Version der Mbrola-engine. MBROLA (Multi Band Resynthesis Overlap und Add), ist ein PSOLA-ähnliches Verfahren, die Datenbasis wird aber im Vorfeld bezüglich der Amplitude, Pitch und spektralen Eigenschaften angepasst. | DE, US, UK, ES, FR, NL, BE, BR, PT, IT, SE, NO, DK, FI, IS, TR, CZ, SA | Eva | 2000 | ||||
Greta | 2000 | |||||||
Helga (8 kHz) | 2000 | |||||||
Gerhard (8 kHz) | 2000 | |||||||
Steffen | 1997 | |||||||
Infovox 330/Infovox Desktop | Diphon Verkettung (vermutlich gleich Babil). Infovox 310 ist die Apple-Version | DE, UK, DK, NL, FI, FR, IS, IT, NO, ES, SE | Helga | 1996 | - | |||
Gerhard | 1996 | - | - | - | ||||
Infovox 210/230 | Formant Synthese (Nachfolger von KTH's OVE, ursprünglich von Telia promotor) | DE, UK, DK, NL, FI, FR, IS, IT, NO, ES, SE | - | 1994 | - | |||
Infovox Desktop PRO | non-uniform unit-selection, identisch mit Babeltechs BrightSpeech | |||||||
Aculab |
- | Diphon Verkettung mit LPC kodierten Einheiten. LPC (linear predictive coding) ist ursprünglich ein Komprimierungsverfahren, das gut für Sprachsynthese verwendet werden kann, da es auf dem beliebten Quelle-Filter Sprachmodell basiert. | DE, UK, US, FR, BR, IT, ES | Julia | 1998 | - | ||
Atip |
Proser | NLP-Komponente und Stimmen von Atip, Mbrola Engine (Diphon Verkettung) von Babeltech | DE, US | Carla | 2000 | |||
Eva | 2000 | |||||||
Steffen | 1997 | |||||||
Erkan (mit türkischem Akzent) | 2004 | |||||||
Fifi (mit französischem akzent) | 2004 | |||||||
AT&T |
Natural Voices | non-uniform unit-selection | DE, US, UK, FR, MX* | Klara | 2001 | |||
Reiner | 2002 | |||||||
Bell-Labs
(Lucent) |
- | LPC-kodierte Diphon-Verkettung | DE, FR, ES, US, UK, IT, RU, RO, CN | - | 1997 | - | ||
Cepstral |
- | non-uniform unit-selection | DE, UK, US, ES, FR, EG, TH, AF | Katrin | 2003 | |||
Matthias | 2003 | |||||||
Fonix |
Dectalk | regelbasierte Formant Synthese (der legendäre Formant Synthesizer, basiert auf Klatt's MITTalk) | DE, US, UK, ES, MX*, FR | - | 1982 | - | ||
GData |
Logox | Microsegmentsynthese, Verkettung subphonemischer (kürzer als ein Phonem) Einheiten | DE, US, UK | - | 2000 | - | ||
Bill | 1998 | |||||||
Bill schwäbischer Akzent | 2002 | |||||||
Bill hessischer Akzent | 2002 | |||||||
Bill sächsischer Akzent | 2002 | |||||||
Bill französischer Akzent | 2002 | |||||||
IBM |
CTTS | non-uniform unit-selection, basierend auf R. Donovan's Verfahren | DE, US, UK, JP, KR, IT, ES, FR | männlich | 2002 | 8kHz |
||
weiblich 8kHz | 2004 | - | - | - | ||||
Loquendo |
ursprünglich Actor genannt, jetzt Loquendo TTS | non-uniform unit-selection | DE, IT, ES, FR, BR, PT, CN, UK, US, MX, GR, CL, AR, SE | Ulrike | 2001 | |||
Stefan | 2003 | |||||||
Katrin | 2003 | |||||||
Nuance (früher Scansoft) |
RealSpeak (ursprünglich von Lernout & Hauspie), erste deutsche kommerzielle unit-selection TTS | non-uniform unit-selection | DE, NL, PT, CA, CN, ES, DK, PT, FR, IT, JP, KR, MX, NO, PL, RU, SE, US, UK | Steffi (8 kHz) | 2004 | |||
Vera (8 kHz) | 1999 | |||||||
a href="http://www.scansoft.com/speechify/"-->Speechify früher von SpeechWorks | non-uniform unit-selection | DE, US, UK, AU, JP, MX*, FR, BR, CA(FR) | Tessa | 2002 | ||||
a href="http://www.scansoft.com/realspeak/rvoice/"-->RVoice, früher Rhetorical | non-uniform unit-selection | DE, UK, US, GR, ES | F018 | 2002 | ||||
M027 | 2004 | |||||||
F026 | 2004 | |||||||
Vocalizer 4.05 (von Nuance vor dem Aufkauf durch Scansoft) | non-uniform unit-selection | DE, US, UK, AU, CA(FR), MX*, BR | Anna Weber | 2004 | ||||
Vocalizer 1.0 (von Nuance vor dem Aufkauf durch Scansoft) | non-uniform unit-selection (lizensierte Technologie von Fonix) | DE, US, UK, NL, FR, IT, NO, ES, SE | - | 2001 | - | |||
a name=eloquent>ETI Eloquence, (ursprünglich von Eloquent Technologies, dann Speechworks) auch an IBM lizensiert (ViaVoice Outloud) | regelbasierte Formant Synthese | DE, UK, US, ES, MX, FR, CA(FR), IT, FI, BR, CN, JP, KR | - | 1998 | - | |||
TTS3000 (ursprünglich Lernout & Hauspie) | Diphon Synthese | DE, US, UK, NL, FR, RU, ES, MX, BR, CN, KR | Stefan | 1996 | - | |||
Anna | 1996 | - | - | - | ||||
TruVoice (ursprünglich Centigram, später Lernout & Hauspie) | Formant Synthese | DE, US, MX*, FR, IT | - | 1996 | - | |||
SVOX |
kommerzielle Version des ETH-Zuerich Systems. | Diphon Synthese | DE, FR, IT, US, ES | Nicole | 2000 | - | ||
Corporate | Non-Uniform Unit-Selection | DE, US | Petra | 2005 | ||||
Markus | 2005 | |||||||
Marlene | 2003 | - | - | - | ||||
VoiceINTERConnect |
Kommerzielle Version des Dress Synthesizer. | Diphon Synthese | DE | male voice | 2000 | |||
female voice | 2000 |
Quelle: www.8hertz.com/tts/tts.html
kommerzielle Systeme |
|||
Firma, Produkt | Note | Beschreibung | Testsätze in mpeg3 |
---|---|---|---|
Acapela, Babil,
ehemals Babeltech |
3- | Diphon-Konkatenation von MBROLA,
benutzt die gleiche Technologie wie Language Dynamics, VoicePro, Stimmen Eva,
Steffen 18.11.2003: Wird jetzt Babil Version 4.1 genannt - Interaktive Demo, Stimmen Eva, Helga, Gerhard |
Eva 16 kHz s1 s2 Steffen 16 kHz s1 s2 Eva 22 kHz s1 s2 Gerhard 8 kHz s1 s2 Helga 8 kHz s1 s2 |
Acapela, BrightSpeech,
ehemals Babeltech |
2- |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Ingrid 22kHz hat "französischen
Akzent", Interaktive
Demo 21.5.2003: Version 1.1 leicht besser als 1.0 23.9.2003: Neue deutsche Version mit anderer Stimme Sarah, z.Z. nur als Demo-Sample verfügbar 18.11.2003: Brightspeech 1.2 Ingrid online verfügbar - immer noch leicht französicher Akzent, immer noch 2- für diese Version. 3.12.2003: Neue Stimme Sarah ohne Akzent, klingt aber schlechter als das Demo-Sample. Probleme bei Abkürzungen (Gramm. wird als Grammatisch gesprochen). Unnatürliche Schwankungen in der Lautstärke - immer noch 2- für diese Version. |
Ingrid 1.0 16 kHz
s1 s2 Ingrid 1.1 22 kHz s1 s2 Ingrid 1.2 22 kHz s1 s2 s3 Ingrid 1.2 8 kHz s1 s2 Sarah-Demo 1.2 22 kHz e1 Sarah-Demo 1.2 8 kHz e1 Sarah 1.2 22 kHz s1 s2 Sarah 1.2 8 kHz s1 s2 |
Acapela, Elan Sayso
bzw. Speechissimo, ehemals ELAN Speech |
2- | 17.11.2003:
Diphon-Konkatenation aus Frankreich, Interaktive Demo.
Version Elan Sayso 4.6 Premium mit Stimme Lea. Elan war
zwischenzeitlich (Mai 2000) eine Lernout & Hauspie Firma, ist
jetzt wieder eigenständig. Benutzt vermutlich die gleiche
Technologie wie Realspeak, wirkt aber ausgereifter. Die gleiche
Technologie und Stimme ist in Speechissimo
enthalten, dieses Produkt ist z.Z. nur für Mac OS X
verfügbar. Leichte, etwas unnatürlich wirkende
Lautstärkeschwankungen innerhalb von einzelnen Worten. |
Lea 22 kHz s1 s2 s3 Lea 8 kHz s1 s2 |
Acapela, Elan Tempo bzw. Digalo, ehemals ELAN Speech | 3- | 17.11.2003: Diphon-Konkatenation aus Frankreich, Interaktive Demo, war zwischenzeitlich (Mai 2000) eine Lernout & Hauspie Firma - jetzt wieder eigenständig, auch im Produkt Text Aloud der Firma Nextup verfügbar | Thomas s1 s2 Dagmar s1 s2 |
Acapela, Infovox
230, ehemals Babeltech |
4- | Formant-Synthese von Telia aus Schweden (Nachfolger von KTH's OVE). Demo | s1 s2 |
Acapela, Infovox
330, ehemals Babeltech |
4 |
Diphon-Konkatenation von Telia aus Schweden. Demo | s1 s2 |
Aculab, Aculab TTS | 3- | Diphon-Konkatenation | Alt s1 s2 Neu s1 s2 |
ATR, CHATR |
3 |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation von ATR, Japan. schweizerischer Dialekt.
Deutsch wird aber z.Z. scheinbar nicht weiterentwickelt. 17.11.2003: Emotionales CHATR - Wavs, Nachfolger NATR |
e1 |
AT&T,
AT&T Natural Voices |
2- | Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Interaktive Demo, 17.11.2003: auch im Produkt Text Aloud verfügbar |
Klara 16 kHz s1 s2 s3 Klara 8 kHz s1 s2 Reiner 16 kHz s1 s2 s3 Reiner 8 kHz s1 s2 Mr. X 16 kHz e1 |
Atip, Proser | 3 |
Diphon-Konkatenation von MBROLA,
NLP-Komponente von Atip, 24.2.2003: Interaktive Demo mit mehreren Stimmen 30.6.2004: Neue Stimmen Erkan (Deutsch mit türkischen Akzent) und Fiffi (Deutsch mit französischem Akzent) |
Eva s1 s2 Steffen s1 s2 Carla s1 s2 Erkan s1 s2 Fiffi s1 s2 |
Cepstral |
3 |
22.3.2004: Non Uniform Unit
Selection. Neue Firma, die seit etwa 2001 existiert. Deutsche Simmen
Katrin und Matthias, Interaktive Demo.
TTS auch im Produkt Text Aloud
der Firma Nextup verfügbar |
Katrin s1 s2 s3 Matthias s1 s2 s3 |
First Byte |
5- | Zeitbereich-Konkatenation 17.1.2003: Link zur Firma First Byte www.fbyte.com funktioniert nicht mehr - die Firma scheint nicht mehr zu existieren |
e1 |
Fonix, DecTalk |
5 |
Zählte vor ca. 10 Jahren zu den besten Sprachsynthese-Systemen, Abkömmling von MITalk und Klattalk, wurde von Digital Equipment Corporation weiterentwickelt, dann an Compaq und zuletzt an Fonix weiterverkauft. Demo-Software und Dokumentation | s1 s2 |
Fonix, Speakthis | 5+ | Interaktive Demo Speakthis, Technolgie wird im Vocalizer 1.0 von Nuance verwendet. | s1 s2 |
GDATA, LOGOX | 4- | 14.9.2004:
Mikrosegmentsynthese, gleiche Technologie wie frühere Version (ca.
1999) von MARY (DFKI), die ebenfalls Mikrosegmentsynthese
verwendete |
Bill (Logox4) s1 s2 Dame s1 s2 |
IBM, Viavoice Outloud | 4- | regelbasierte Formantsynthese (nach Klatt), benutzt die gleiche Technologie wie Scansoft, ETI Eloquence | s1 s2 |
IBM,
CTTS WebSphere
Voice Server |
3 |
Non Uniform Unit
Selection, Zeitbereich-Konkatenation, basierend auf Ansatz von Robert
Donovan, Interaktive
Demo |
8 kHz 8bit mulaw s1 s2 s3 64 kHz s1 s2 |
Keller & Trauth, SpeakEaZy |
4- | Zeitbereichs-Konkatenation. 17.1.2003: Die Firma und Produkt (www.speakeazy.de) scheinen nicht mehr zu existieren. |
e1 |
Language Dynamics, VoicePro |
3- | Diphon-Konkatenation von MBROLA,
benutzt die gleiche Technologie wie Babeltech
/ MBROLA 17.11.2003: VoicePro = WinDi Multilingual Speech Producer, WinDi ist Übersetzungssoftware für 7 Sprachen |
Eva s1 s2 Steffen s1 s2 |
Loquendo, Loquendo TTS | 2 |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Interaktive
Demo, 15.1.2003: Neue Stimme Stefan => Bewertung 2 (Ulrike nur 3+) 18.11.2003: Für das Produkt wird jetzt nicht mehr die Bezeichnung Actor, Loquendo TTS verwendet. 2.4.2004: Neue Stimme Katrin in Actor5, Interaktive Demo jetzt nur noch mit Beimischung von Hintergrundsound verfügbar, dadurch schlecht beurteilbar. |
Ulrike(Actor alt)
s1 s2 Ulrike (Actor 5) s1 s2 s3 Stefan (Actor 5) s1 s2 s3 Katrin (Actor 5) s1 s2 s3 |
Lucent Technologies, Bell-Labs |
3- | LPC-Diphon-Konkatenation 17.11.2003: Ev. im Phonebrowser enthalten?? |
s1 s2 |
Nuance, Nuance
Vocalizer 1.0 |
5+ | Technologie aus Fonix 4.0 bzw. Fonix, Speakthis | s1 s2 |
Rhetorical, rVoice 4 | 2 |
Non Uniform
Unit Selection, Zeitbereich-Konkatenation, nur weibliche Stimme F018
verfügbar, Interaktive
Demo 10.12.2003: Neue Version 4.2 -> Note 2. 25.3.2004: Neue bilinugale Stimmen deutsch/englisch M027 und F026, für F026 keine Demo verfügbar |
rVoice 4.0 F018
16
kHz s1 s2 rVoice 4.0 F018 11 kHz s1 s2 rVoice 4.0 F018 8 kHz s1 s2 rVoice 4.2 F018 16 kHz s1 s2 s3 rVoice 4.2 F018 11 kHz s1 s2 rVoice 4.2 F018 8 kHz s1 s2 rVoice 4.2 M027 16 kHz s1 s2 s3 rVoice 4.2 M027 8 kHz s1 s2 |
Scansoft, Centigram's TruVoice, ehemals Lernout & Hauspie | 5+ | Formant-Synthese 17.11.2003: Produkt scheint nicht mehr zu existieren |
s1 s2 |
Scansoft, Diphon-Konkatenation, ehemals Lernout & Hauspie | 5 | Diphon-Konkatenation 17.11.2003: Produkt scheint nicht mehr zu existieren |
s1 s2 |
Scansoft, ETI Eloquence, ehemals Speechworks, noch früher Eloquent Technology Inc. | 4- | regelbasierte Formantsynthese
(nach Klatt); benutzt die gleiche Technologie wie Viavoice
Outloud von IBM. ETI Eloquent's white paper 1997 |
s1 s2 |
Scansoft RealSpeak, ehemals Lernout & Hauspie |
2+ |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Interaktive Demo 26.5.2004: Neue Stimme Steffi, die etwas höher spricht und auch dadurch etwas besser verständlich ist - Note 2+ statt 2. Allerdings keine interaktive Demo verfügbar, deshalb zum besseren Vergleich eine der Scansoft-Demo von Steffi angepassten Version von Vera angefertigt |
Vera 8 kHz s1 s2 Vera 22 kHz s1 s2 s3 Vera 22 kHz e1 Steffi 22 kHz e1 |
Scansoft Speechify 2.1, ehemals Speechworks |
2 |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Interaktive Demo |
Tessa 16 kHz s1 s2
s3 Tessa 8 kHz s1 s2 |
SVOX
AG,
SVOX Genie |
3 |
17.11.2003:
Diphon-Konkatenation mit Kompression für Mobiltelefonie
optimiert mit Speicherbedarf < 290KB. Kommerzielle Version von
SVOX der ETH Zürich 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
Nicole Genie e1 |
SVOX
AG,
SVOX Mobile |
3 |
17.11.2003:
Diphon-Konkatenation mit Kompression für Mobiltelefone und
Consumerelektronik optimiert mit Speicherbedarf < 1 MB. Kommerzielle
Version von SVOX
der ETH Zürich 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
Nicole Mobile e1 |
SVOX
AG,
SVOX Smart |
3 |
17.11.2003:
Diphon-Konkatenation für Automobil und PDAs optimiert mit
Speicherbedarf 6-10 MB. Kommerzielle Version von SVOX der ETH Zürich 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
Nicole Smart e1 |
SVOX
AG,
SVOX Speech Server |
2- | ehemals Diphon-Konkatenation,
Aussprache-Dauersteuerung mit MARS (Multivariate Adaptive Regression
Splines), Tonhöhensteuerung mit rekurrentem neuronalen Netz.
Kommerzielle Version von SVOX der ETH Zürich 17.11.2003: Neue Stimme Marlene mit Non Uniform Unit Selection, immer noch leichter Schweizer Akzent. Zur Zeit ohne interkative Demo -> Note 2 statt 3+, Samples, alte Stimme Nicole wird noch in den Produkten SVox Genie, Mobile, Smart eingesetzt 2.4.2004: Stimme Marlene nach mehrmaligen Anhören auf 2- statt 2 gesetzt. 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
Nicole alt s1 s2 Nicole 1.3 s1 s2 Marlene e1 |
t & i, alte Version Eurovocs | 6- | Diphon-Konkatenation, Technologie von Lernout & Hauspie. | e1 |
t & i, neue Version Eurovocs | 4- | Diphon-Konkatenation, Technologie von Lernout & Hauspie. | e1 |
VoiceINTERconnect, DreSS | 4+ | Kommerzielle Version des Sprachsynthesizers DreSS der TU Dresden, Diphon-Konkatenation, Interaktive Demo | s1 s2 |
© Die Weitergabe der Tipps mit Quellenangabe ist gestattet.