SOVA ASR/TTS

Создавайте виртуальных голосовых ассистентов с помощью SOVA ASR/TTS

ASR иллюстрация

Особенности SOVA ASR/TTS

Доступность

SOVA ASR/TTS имеет лицензию Apache License 2.0 - можно использовать как в учёбе, так и в коммерческой разработке.

Гибкость

Работает на GPU и CPU. Это позволяет запускать распознавание и синтез речи SOVA на большем количестве устройств.

Применимость

На основе SOVA ASR/TTS можно делать своих голосовых виртуальных ассистентов.

Безопасность

Распознавание и синтез речи SOVA запускаются локально на вашей машине. Ваши данные остаются у Вас.

Открытость

Исходники SOVA ASR/TTS доступны в opensource. Есть возможность взять исходники и доработать под свои задачи.

Легкость

Распознавание и синтез речи SOVA легко установить, есть подробные Readme.

Распознавание речи

Распознавание речи

SOVA ASR распознает ваш голос и преобразует его в написанный текст. Как при загрузке заранее записанного аудио, так и в режиме реального времени.

Акустическая модель - Wav2Letter

Декодер - CTC (Connectionist Temporal Classification) Decoder

Языковая модель - KenLM

Пунктуатор - BERT

Синтез речи

Синтез речи

SOVA TTS синтезирует голос человека. Можно отправить текст любой длины и получить на выходе аудиозапись

Имеет несколько голосов

Движок - доработанный Tacotron 2

Вокодер - доработанный Waveglow

NLP-препроцессор - sova-tts-tps

Интересно?

Превращайте своих текстовых виртуальных ассистентов в голосовых с помощью SOVA ASR/TTS

Изображение для действия