Amphion – 开源的全能AI音频项目，面向音频、音乐和语音生成的工具包

Amphion是什么

Amphion是开源的音频、音乐和语音生成工具包，是香港中文大学（深圳）副教授武执政团队联合上海人工智能实验室和深圳市大数据研究院共同推出的。工具包支持可重复的研究，帮助初级研究人员和工程师快速进入音频、音乐和语音生成领域。Amphion提供多种功能，包括文本转语音（TTS）、歌声合成（SVS）、语音转换（VC）、歌声转换（SVC）、文本转音频（TTA）和文本转音乐（TTM）。集成多种神经声码器，如MelGAN、HiFi-GAN等，及全面的评估指标，确保生成音频的质量和一致性。Amphion的独特之处在于经典模型和架构的可视化功能，有助于研究人员和工程师深入理解模型的内部工作原理。

Amphion的主要功能

文本转语音（TTS）：Amphion支持多种先进的TTS模型，能将文本转换为自然流畅的语音输出。
歌声合成（SVS）：基于提取参考和源音频的相关特征，Amphion能合成歌声，实现演唱者声音的转换。
语音转换（VC）：Amphion能将一个人的声音转换成另一个人的声音，不改变语音内容。
歌声转换（SVC）：Amphion能将一位演唱者的歌声转换为另一位演唱者的歌声。
文本转音频（TTA）：Amphion能根据文本提示生成逼真的音效、语音及音乐。
文本转音乐（TTM）：Amphion能将文本描述转换为音乐作品。
声码器（Vocoder）：Amphion集成多种声码器，用在生成高质量的音频信号。

Amphion的技术原理

模型架构可视化：Amphion提供经典模型或架构的可视化，帮助研究人员和工程师更好地理解模型的工作原理。
统一框架：Amphion提供统一的框架，支持多种音频生成任务，让研究和开发更加方便。
预训练模型：Amphion发布多种高质量的预训练模型，推动可重复性研究。
神经声码器集成：Amphion集成多种神经声码器，如基于GAN的声码器（MelGAN、HiFi-GAN等）、基于流的声码器（WaveGlow）和基于扩散的声码器（DiffWave）。
文本到音频生成：Amphion用潜在扩散模型，类似于AudioLDM、Make-an-Audio和AUDIT的设计，根据文本提示生成音频。