热门

MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型

AI工具8个月前发布 AI工具

MaskGCT是什么

MaskGCT是趣丸科技与香港中文大学（深圳）合作推出的语音合成大模型，基于掩码生成模型与语音表征解耦编码的技术，实现在声音克隆、跨语种合成、语音控制等任务上的显著效果。模型在多个TTS基准数据集上达到行业领先的水平，某些性能指标甚至超过人类。MaskGCT能快速且逼真地克隆声音，灵活调整语音的持续时间、速度和情感，支持中文、英文、日文、韩文、法文和德文等六种语言的合成。模型已在Amphion系统中开源，面向全球用户开放使用。

MaskGCT的主要功能

声音克隆：能快速复刻任意音色，包括人类、动漫角色等，且能完整地复制语调、风格和情感。
跨语种合成：支持多种语言的语音合成，包括中文、英文、日文、韩文、法文和德文等，实现跨语言的语音生成。
语音控制：灵活调整生成语音的长度、语速和情绪，支持用编辑文本编辑语音内容，保持韵律和音色的一致性。
高质量语音数据集：训练于高质量的多语种语音数据集Emilia，提供丰富的语音合成素材。

MaskGCT的技术原理

语音语义表示编解码器：将语音转换为语义标记，用VQ-VAE模型学习向量量化码本，从语音自监督学习模型中重建语音语义表示。
语音声学编解码器：将语音波形量化为多层离散标记，保留语音的所有信息，用RVQ方法压缩语音波形，用Vocos架构作为解码器。
文本到语义模型：用非自回归掩码生成Transformer，不依赖文本到语音的对齐信息，基于语言模型的上下文学习能力预测语义标记。
语义到声学模型：用非自回归掩码生成Transformer，语义标记为条件生成多层声学标记序列，重建高质量语音波形。

MaskGCT的项目地址

GitHub仓库：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
HuggingFace模型库：https://huggingface.co/amphion/MaskGCT
arXiv技术论文：https://arxiv.org/pdf/2409.00750v2
公测版地址（趣丸千音）：https://voice.funnycp.com/

MaskGCT的应用场景

有声读物和播客：用MaskGCT生成的高质量语音，为电子书、有声读物和播客节目提供自然的朗读声音，提升听众的听觉体验。
智能助手和聊天机器人：在智能设备和客服系统中，MaskGCT提供更加自然和个性化的语音交互体验。
视频游戏和虚拟现实：在游戏和虚拟现实应用中，MaskGCT为角色生成逼真的语音，增强沉浸感。
影视制作和配音：在影视后期制作中，MaskGCT快速生成或替换角色的语音，提高制作效率。
语言学习和教育：MaskGCT生成标准或特定口音的语音，辅助语言学习者练习发音和听力。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

fal – 面向开发者的生成音频、视频和图像AI平台

fal – 面向开发者的生成音频、视频和图像AI平台

AI工具 # # AI

8个月前

02120

PixVerse – 免费高清的AI视频生成工具

PixVerse – 免费高清的AI视频生成工具

8个月前

0480

YT Navigator – AI YouTube 内容搜索工具，自然语言查询定位关键信息

YT Navigator – AI YouTube 内容搜索工具，自然语言查询定位关键信息

AI项目框架 # # AI

3个月前

050

BANTER AI – 可与名人虚拟克隆体实时语音对话的AI平台

BANTER AI – 可与名人虚拟克隆体实时语音对话的AI平台

AI工具 # # AI

8个月前

01420

暂无评论

暂无评论...