PersonaTalk – 字节跳动推出的实现高保真和个性化视觉配音框架

什么是Personatalk？

Personatalk是基于注意机制的字节跳动的两个阶段框架，用于实现高保真度和个性化的视觉配音。Personatalk可以保留演讲者独特的演讲风格和面部细节，同时合成与目标音频准确唇形同步的视频。第一阶段涉及风格感知的音频编码和唇形同步几何生成，第二阶段用双注意面部渲染器渲染目标几何图形的纹理。Personatalk在视觉质量、唇形同步精度和个性保留方面表现出比现有技术更好的性能(包括Wav2lip、VideoReTalking、DINet和IP_LAP），作为一个通用框架，它可以达到与特定人类方法相当的效果。

Personatalk的主要功能

唇形同步：确保视频中人物的嘴型动作与输入音频精确匹配。
个性保留：在视频合成过程中，保留说话者独特的风格和面部特征。
风格感知：在分析说话者的3D面部几何信息的基础上，学习说话者的说话风格，融入音频特征。
双注意面部渲染：使用Lip-Attention和Face-Attention有两种平行的注意机制，分别处理唇部和其它面部区域的纹理渲染，生成具有丰富细节的面部图像。

Personatalk的技术原理

几何构建：
- 感知音频编码的风格：利用Hubert等预训练模型，将音频信号转换为丰富的上下文语音表达，并根据交叉注意层将语音风格注入音频特征。
- 唇形同步几何生成：模板几何形状是由风格化的音频特征驱动的，与音频同步的唇形几何形状是基于多个交叉注意和自注意层。
面部渲染：
- 几何和纹理编码：将参考视频的几何形状和纹理编码到潜在空间，便于后续处理。
- 双注意纹理采样：基于两个并行的交叉注意力层（Lip-Attention和Face-Attention），唇部和面部的纹理分别从不同的参考帧中取样。
- 参考帧选择策略：为唇部和面部纹理选择不同的参考帧，增强纹理采样的多样性和整体一致性。
- 纹理解码：将采样纹理从潜在空间中解码回像素空间，保护面部几何结构，生成最终的面部图像。