Audio Course documentation
Дополнительные материалы и ресурсы
Раздел 0. Добро пожаловать на курс!
Раздел 1. Работа с аудиоданными
Раздел 2. Краткое введение в аудиоприложения
Раздел 3. Архитектуры трансформеров для аудио
Раздел 4. Создание классификатора музыкальных жанров
Раздел 5. Automatic Speech Recognition
Раздел 6. От текста к речи
Чему вы научитесь и что создадитеНаборы данных Text-to-speechПредварительно обученные модели text-to-speechДообучение SpeechT5Оценка моделей text-to-speechПрактическое занятиеДополнительные материалы и ресурсы
Раздел 7. Собираем все воедино
Раздел 8. Финишная прямая
Мероприятия в рамках курса
Дополнительные материалы и ресурсы
В этом разделе была представлена задача преобразования текста в речь. Хотите узнать больше? Здесь вы найдете дополнительные ресурсы, которые помогут вам углубить понимание рассматриваемых тем и повысить эффективность обучения.
- HiFi-GAN: генеративные состязательные сети для эффективного и высококачественного синтеза речи: статья, в которой представлена HiFi-GAN для синтеза речи.
- Х-Векторы: Надежные DNN-Эмбединги для распознавания дикторов: статья, в которой представлен метод Х-Векторов для эмбеддингов дикторов.
- FastSpeech 2: быстрое и высококачественное преобразование текста в речь: статья, в которой представлена FastSpeech 2 - еще одна популярная модель преобразования текста в речь, использующая неавторегрессионный TTS метод.
- Векторно-квантованный подход для синтеза текста в речь на основе спонтанной речи в реальном мире: статья, посвященная MQTTS - авторегрессионной системе TTS, в которой мел-спектрограммы заменены квантованным дискретным представлением.