<html><head><style> body {height: 100%; color:#000000; font-size:12pt; font-family:Times New Roman;}</style></head><body>Don,<br><span>When I referenced naturalness previously, I was summarizing my individual criteria. Yes, I do consider how a specific voice pronounces words consistently when judging its naturalness. For example, the old Nuance U.K. English voice Emily consistently says "restart" as "restert", as in when one restarts a computer. I know that word is a voice-specific issue because other U.K. voices Daniel and Malcom, also from Nuance, pronounce the word correctly.</span><br><br><span>Reading through your questions to various members of this list, I feell like an individual who is  taking a survey. Are you a researcher or scientist? I ask due to your reference to measurable criteria.</span><br><span>Blake</span><br><br>----- Original Message -----<br>From: Don <Text_to_Speech@GMX.com><br>To: dectalk@bluegrasspals.com<br>Sent: Sun, 21 Jul 2019 22:13:19 -0400 (EDT)<br>Subject: Re: [DECtalk] Intelligibility/Listenability criteria<br><br>Hi Blake,<br><br>On 7/21/2019 6:46 AM, Blake Roberts wrote:<br>> Don, For me, whether a speech synthesizer is tolerable or not depends on a<br>> few factors. 1. How realistic the voice sounds, naturalness.<br><br>By naturalness I'm assuming you mean prosody and lack of audible<br>artifacts (pops, squeals, clicks, etc.).<br><br>But, would your opinion change if it had other "warts"? For example,<br>if it always pronounced "read" as "reed", regardless of context?<br>Or, if all numbers were read as strings of digits -- so "2019" was<br>pronounced "two zero one nine"? Or, if it mispronounced a large<br>number of words (but did so with a pleasant voice)?<br><br>I find that each unexpected encounter causes my attention to be<br>diverted into contemplating what it might have been trying to say<br>instead of continuing to listen to the text that follows. This gets<br>frustrating -- like taking two steps forwards and one step back.<br><br>> 2. Whether the synthesizer can handle the amount of text given to it by the<br>> screen reading software without crashing.<br><br>Ah, that's simply unacceptable. If it doesn't work, then its broken<br>and I don't want to have my time wasted by it. As with the previous<br>comment, I'd rather make progress at a reduced rate or with lower quality<br>audio than to have to keep "starting over" each time the algorithm gags<br>or the application crashes.<br><br>> 3. If I can listen to the synthesizer for a long period without getting ear fatigue.<br><br>Understood. But, hard to put a number on that. And, what you consider<br>fatigue may not be a problem for someone else.<br><br>On the other hand, you can count the number of mispronunciations<br>and that number doesn't change, regardless of listener.<br><br>> Let me provide two examples. Years ago I purchased AT&T voices from<br>> nextup.com for use with the the TextAloud program. Since AT&T voices are<br>> SAPI5 compatible, I chose to use them with my screen reader. That was a<br>> mistake. The voices are so large in size that they would consistently crash<br>> after being my JAWS screen reader voice for a minute or two. To me, the<br><br>Is that because of a lack of sufficient resources in your machine?<br>More RAM, faster processor? Annoying to see how much bloat modern<br>software requires for a job that was handled decades ago by relatively<br>simple hardware!<br><br>> AT&T voices I purchased also sound monotone, so I could not tolerate<br>> listening to AT&T voices for hours on end in any event. I think there is a<br>> newer version of the AT&T voices from Wizard Software which NextUp does not<br>> have access to/does not sell. I can only share my perspective based on the<br>> voices which I have.<br>><br>> On my Windows 10 system at home, I prefer either Eloquence or Microsoft<br>> Mark. When I am using JAWS Professional Edition on my work laptop, I prefer<br>> Microsoft Mark or the Vocalizer British English Vocalizer voice Malcolm<br>> although I happen to reside in the U.S. Malcolm sounds natural, does not<br>> crash and I enjoy listening to him for hours.<br><br>So your focus really seems to be on the "voice". But, then again,<br>you're listening to it for prolonged periods of time so one would<br>assume you would want it to be as "easy on the ears" as possible.<br><br>I'm amused that no one has pointed to more technical issues regarding<br>the conversion process -- upstream of the voicing.<br><br>> These are my thoughts. I know that some people evaluate a synthesizer voice<br>> on how fast it can talk. I do not use that criteria myself as an end-user<br>> because I prefer slow or medium speed. If a voice is set too fast, I cannot<br>> understand it.<br><br>I think a lot depends on the content. For me, comprehension seems<br>to vary opposite reading speed. I'd want to read a contract more<br>carefully than a pulp novel or the day's news!<br><br>_______________________________________________<br>Dectalk mailing list<br>Dectalk@bluegrasspals.com<br>http://bluegrasspals.com/mailman/listinfo/dectalk<br></body></html>