PersonaTalk - 字节跳动推出的实现高保真和个性化视觉配音框架

AI工具5个月前发布 AI工具
32 0 0

什么是Personatalk?

Personatalk是基于注意机制的字节跳动的两个阶段框架,用于实现高保真度和个性化的视觉配音。Personatalk可以保留演讲者独特的演讲风格和面部细节,同时合成与目标音频准确唇形同步的视频。第一阶段涉及风格感知的音频编码和唇形同步几何生成,第二阶段用双注意面部渲染器渲染目标几何图形的纹理。Personatalk在视觉质量、唇形同步精度和个性保留方面表现出比现有技术更好的性能(包括Wav2lip、VideoReTalking、DINet和IP_LAP),作为一个通用框架,它可以达到与特定人类方法相当的效果。

Personatalk的主要功能

  • 唇形同步:确保视频中人物的嘴型动作与输入音频精确匹配。
  • 个性保留:在视频合成过程中,保留说话者独特的风格和面部特征。
  • 风格感知:在分析说话者的3D面部几何信息的基础上,学习说话者的说话风格,融入音频特征。
  • 双注意面部渲染:使用Lip-Attention和Face-Attention有两种平行的注意机制,分别处理唇部和其它面部区域的纹理渲染,生成具有丰富细节的面部图像。

Personatalk的技术原理

  • 几何构建
    • 感知音频编码的风格:利用Hubert等预训练模型,将音频信号转换为丰富的上下文语音表达,并根据交叉注意层将语音风格注入音频特征。
    • 唇形同步几何生成:模板几何形状是由风格化的音频特征驱动的,与音频同步的唇形几何形状是基于多个交叉注意和自注意层。
  • 面部渲染
    • 几何和纹理编码:将参考视频的几何形状和纹理编码到潜在空间,便于后续处理。
    • 双注意纹理采样:基于两个并行的交叉注意力层(Lip-Attention和Face-Attention),唇部和面部的纹理分别从不同的参考帧中取样。
    • 参考帧选择策略:为唇部和面部纹理选择不同的参考帧,增强纹理采样的多样性和整体一致性。
    • 纹理解码:将采样纹理从潜在空间中解码回像素空间,保护面部几何结构,生成最终的面部图像。

项目地址PersonaTalk

Personatalk应用场景

  • 制作电影和视频:在电影的后期制作中,Personatalk为角色配音,特别是当原始录音不满意或需要更改语言时,与角色嘴型同步的配音视频。
  • 视频游戏:在游戏开发中,用于生成非玩家角色(NPC)逼真的对话,提供更沉浸式的游戏体验。
  • 虚拟助手和数字人:为虚拟助手或数字人提供更自然、更逼真的语音和面部表情同步,提升用户互动体验。
  • 语言学习应用:在语言学习软件中,P生成教师或虚拟角色的唇形同步视频,帮助学习者更好地学习和模仿发音。
  • 新闻和媒体广播:将新闻主播的演讲翻译成不同的语言,保持原有的面部表情和嘴型,提高多语言广播的自然性和准确性。
© 版权声明

相关文章

暂无评论

none
暂无评论...