SOVA Dataset

Окрытый набор размеченных аудиоданных для обучения моделей распознавания и синтеза речи. Один из крупнейших российских открытых датасетов.

Размер датасета

Изображение, доказывающее, что это круто

28 853 часа аудиозаписей с отекстовками

2,9 ТБ в формате .wav

Язык записей - русский и английский

Большое количество данных позволяет проводить эффективное обучение нейросетей.

Датасет распространяется по лицензии CC-BY 4.0: данные можно использовать для коммерческих целей, копировать, распространять и создавать производные материалы.

Качество записи

Одинаковое качество всех данных: все записи приведены к стандартным параметрам, отекстовки соответствуют аудиозаписям. Разметка аудиозаписей осуществляется вручную и проходит тщательную проверку.

Для создания датасета мы привлекаем профессиональных дикторов и работаем с партнерскими источникам (youtube-каналы, издательства аудиокниг, информационные агентства и т.д.) в рамках лицензионного соглашения.

Текущий состав датасета

EngAudiobooksOriginal

Английские аудиокниги, запись на профессиональную аппаратуру, разметка с принудительным выравниванием

EngAudiobooksOriginal

Английские аудиокниги, запись на профессиональную аппаратуру, разметка с принудительным выравниванием

EngAudiobooksNoisy

Зашумленные английские аудиокниги с аугментацией под телефонные звонки, запись на профессиональную аппаратуру, разметка с принудительным выравниванием

RuAudiobooksDevices

Русские аудиокниги, запись на непрофессиональную аппаратуру, ручная разметка

RuDevices

Русская живая речь, запись на мобильные устройства и другую непрофессиональную аппаратуру, ручная разметка

RuYoutube

Видео на русском языке, запись на непрофессиональную аппаратуру, разметка с помощью ASR

Почти 30 тысяч часов

На данный момент датасет насчитывает 28 853 часа аудиозаписей и регулярно пополняется

Сейчас и бесплатно

Используйте наш Open Source Dataset SOVA для обучения моделей распознавания речи и синтеза речи