Дополнительные материалы и ресурсы

В этом разделе была представлена задача преобразования текста в речь. Хотите узнать больше? Здесь вы найдете дополнительные ресурсы, которые помогут вам углубить понимание рассматриваемых тем и повысить эффективность обучения.

HiFi-GAN: генеративные состязательные сети для эффективного и высококачественного синтеза речи: статья, в которой представлена HiFi-GAN для синтеза речи.
Х-Векторы: Надежные DNN-Эмбединги для распознавания дикторов: статья, в которой представлен метод Х-Векторов для эмбеддингов дикторов.
FastSpeech 2: быстрое и высококачественное преобразование текста в речь: статья, в которой представлена FastSpeech 2 - еще одна популярная модель преобразования текста в речь, использующая неавторегрессионный TTS метод.
Векторно-квантованный подход для синтеза текста в речь на основе спонтанной речи в реальном мире: статья, посвященная MQTTS - авторегрессионной системе TTS, в которой мел-спектрограммы заменены квантованным дискретным представлением.

Update on GitHub

Audio Course

Дополнительные материалы и ресурсы