Размер датасета
28 853 часа аудиозаписей с отекстовками
2,9 ТБ в формате .wav
Язык записей - русский и английский
Большое количество данных позволяет проводить эффективное обучение нейросетей.
Датасет распространяется по лицензии CC-BY 4.0: данные можно использовать для коммерческих целей, копировать, распространять и создавать производные материалы.
Качество записи
Одинаковое качество всех данных: все записи приведены к стандартным параметрам, отекстовки соответствуют аудиозаписям. Разметка аудиозаписей осуществляется вручную и проходит тщательную проверку.
Для создания датасета мы привлекаем профессиональных дикторов и работаем с партнерскими источникам (youtube-каналы, издательства аудиокниг, информационные агентства и т.д.) в рамках лицензионного соглашения.
Текущий состав датасета
EngAudiobooksOriginal
Английские аудиокниги, запись на профессиональную аппаратуру, разметка с принудительным выравниванием
EngAudiobooksNoisy
Зашумленные английские аудиокниги с аугментацией под телефонные звонки, запись на профессиональную аппаратуру, разметка с принудительным выравниванием
RuAudiobooksDevices
Русские аудиокниги, запись на непрофессиональную аппаратуру, ручная разметка
RuDevices
Русская живая речь, запись на мобильные устройства и другую непрофессиональную аппаратуру, ручная разметка
RuYoutube
Видео на русском языке, запись на непрофессиональную аппаратуру, разметка с помощью ASR
Почти 30 тысяч часов
На данный момент датасет насчитывает 28 853 часа аудиозаписей и регулярно пополняется