Особенности SOVA ASR/TTS
Доступность
SOVA ASR/TTS имеет лицензию Apache License 2.0 - можно использовать как в учёбе, так и в коммерческой разработке.
Гибкость
Работает на GPU и CPU. Это позволяет запускать распознавание и синтез речи SOVA на большем количестве устройств.
Применимость
На основе SOVA ASR/TTS можно делать своих голосовых виртуальных ассистентов.
Безопасность
Распознавание и синтез речи SOVA запускаются локально на вашей машине. Ваши данные остаются у Вас.
Открытость
Исходники SOVA ASR/TTS доступны в opensource. Есть возможность взять исходники и доработать под свои задачи.
Легкость
Распознавание и синтез речи SOVA легко установить, есть подробные Readme.
Распознавание речи
SOVA ASR распознает ваш голос и преобразует его в написанный текст. Как при загрузке заранее записанного аудио, так и в режиме реального времени.
Акустическая модель - Wav2Letter
Декодер - CTC (Connectionist Temporal Classification) Decoder
Языковая модель - KenLM
Пунктуатор - BERT
Синтез речи
SOVA TTS синтезирует голос человека. Можно отправить текст любой длины и получить на выходе аудиозапись
Имеет несколько голосов
Движок - доработанный Tacotron 2
Вокодер - доработанный Waveglow
NLP-препроцессор - sova-tts-tps