Речевой движок
Речевой движок или голосовой движок (англ. speech engine) — программа, синтезирующая речь.
В операционных системах семейства Windows для написания речевых движков используется программный интерфейс Microsoft Speech API, который позволяет любой программе обращаться ко всем поддерживающим его движкам (хотя реально это не всегда возможно, так как не все программы поддерживают полный набор функций Speech API, и, например, некоторые движки не работают в программе «Говорилка»).
В Linux основной программой синтеза речи является Festival. Также существует его легковесная альтернатива Flite. FreeTTS — это версия Flite, портированная на платформу Java. К сожалению, качество свободных синтезаторов уступает современным коммерческим продуктам.
Обзор существующих движков
Большая часть современных разработок ведётся на платформе Windows с использованием Microsoft Speech API 5, хотя существуют и разработки для мобильных устройств. Для русского языка существуют такие речевые движки:
- Loquendo TTS (голоса Ольга и Дмитрий)
- Acapela Alyona TTS (голос Алёна) и Digalo 2000 Russian TTS/Acapela (Elan) SpeechCube 5.1 (голос Николай, устаревший движок) от компании Acapela Group
- Nuance TTS (бывший ScanSoft RealSpeak) (голоса Катерина и Милена [новый]) от компании Nuance Communications (бывшая ScanSoft[1])
- Sakrament (голоса Вика, Ирина, Ольга, Юлия, Вячеслав и Юрий) от белорусской комании «Сакрамент ИТ»; есть версии для мобильных устройств (Symbian Edition, PDA Edition и Smartphone Edition)
- Nokia Text-To-Speech (голос Ольга) для чтения SMS на мобильных телефонах
Устаревшие движки
- Lermnont&Hauspie TTS 3000 Russian (голоса Светлана и Борис)
- ViknoTTS (голос Олег) — устаревшая разработка, о которой, впрочем, стоит упомянуть, так как это единственный русский голосовой движок, созданный на общественных началах как полностью свободное ПО.
Примечания
- ↑ В сентябре 2005 года произошло слияние компаний в одну.