MultiFoley – Adobe 联合密歇根大学推出的音效生成系统

什么是MultiFoley?

MultiFoleyAdobe Research和密歇根大学联合推出的音效生成系统可以基于文本、音频和视频的多模态控制来生成Foley的声音效果。该系统支持用户根据文本提示、参考音频或部分视频定制和生成与视频同步的声音,以增强视频观看体验。MultiFoley联合训练互联网视频数据集和专业声音效果录音,实现高质量、全带宽(48kHz)的音频生成。MultiFoley可以为视频制作提供灵活的声音设计控制,帮助用户创造干净和有创意的声音效果。

MultiFoley的主要功能

  • Foley生成文本控制的Foley:引导和生成与视频同步的声音效果,是真实的声音或创造性的声音。
  • Foley生成音频控制的Foley:支持用户从声效库中选择参考音频,将声音应用到无声视频中,并与视频同步。
  • Foley音频扩展:扩展部分音频轨道,产生完整的Foley声音。
  • 质量控制:将质量标签添加到文本中,生成高质量的全频带(48kHz)音频。
  • 多模态控制:提供详细的声音设计控制,结合文本、音频和视频的条件信号。

MultiFoley的技术原理

  • 联合训练:网络视频数据集(低质量音频)和专业声音效果(SFX)训练录音,生成高质量的全频带音频。
  • 扩散变换器(Diffusion Transformer):Foley声音是基于扩散模型从随机噪声生成新样本,用于视频引导,并结合多模态控制。
  • 高质量的音频自编码器(DAC-VAE):基于变分自编码器(VAE),在音频-视频同步中,将48kHz的音频波形编码成40Hz的潜在特征。
  • 冻结视频编码器:用于音频-视频同步,将视频编码成特征,并与潜在的音频编码一起使用。
  • 多条件训练策略:使模型能够灵活地支持音频扩展和文本驱动的声音设计等下游任务。
  • 多头注意力机制:提高模型的表达能力,并行学习不同类型的特征或依赖关系。

MultiFoley项目地址

MultiFoley的应用场景

  • 制作电影和视频:在电影制作中,产生脚步声、关门声等与画面动作同步的声音效果,增强观众的沉浸感。
  • 游戏开发:在游戏中,为不同的游戏环境和动作产生逼真的声音,提升游戏体验。
  • 动画制作:对于动画,根据动画角色的动作产生相应的声音,使动画更加生动。
  • 广告制作:在广告行业,根据广告创意产生引人注目的声音效果,增加广告的吸引力。
  • 虚拟现实(VR):在虚拟现实体验中,产生与虚拟环境同步的声音,提高用户的沉浸感和体验质量。
© 版权声明

相关文章

暂无评论

none
暂无评论...