MimicTalk – 字节联合浙大推出的开源3D数字人头项目

MimicTalk是什么

MimicTalk是浙江大学和字节跳动共同研发推出基于NeRF（神经辐射场）技术，能在极短的时间内，仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。MimicTalk提高了训练效率，基于高效的微调策略和具有上下文学习能力的人脸动作生成模型，显著提升生成视频的质量。MimicTalk的代码是基于之前的Real3D-PortrAIt项目，进一步优化而来，支持用音频驱动来生成特定人物的说话头像，让数字人视频在感官上与真人具有极高的相似性。

MimicTalk的主要功能

快速个性化训练：MimicTalk能在15分钟内完成对一个新身份的适应和训练，相比传统方法大幅提高训练效率。
高质量视频生成：基于精细调整和优化，MimicTalk生成的视频在视觉质量上超越以往的技术。
表现力增强：MimicTalk能捕捉和模仿目标人物的动态说话风格，让生成的视频更加生动和富有表现力。
上下文学习：模型能从上下文中学习目标人的说话风格，提高面部动作的自然度和真实感。
音频驱动：支持用音频输入驱动特定人物的3D说话头像，实现音频到面部动作的同步。

MimicTalk的技术原理

人-不可知3D人脸生成模型（Person-Agnostic 3D Face Generation Model）：
- 作为基础模型，是一个预训练的、能处理单张图片输入的通用3D人脸生成模型。
- 模型能为不同的人物身份生成逼真的3D人脸。
静态-动态混合适应流程（Static-Dynamic Hybrid Adaptation Pipeline）：
- 混合适应流程帮助模型学习特定身份的静态外观（如面部几何形状和纹理细节）和动态特征（如面部表情和肌肉运动）。
- 基于优化3D人脸表征（tri-plane）和用低秩适应（LoRA）技术，模型能快速适应新的身份。
上下文风格化的音频到运动模型（In-Context Stylized Audio-to-Motion Model, ICS-A2M）：
- 模型负责生成与目标人物说话风格相匹配的面部动作。
- 基于上下文学习模仿参考视频中的说话风格，无需显式的风格表示。
Flow Matching模型：
- 用在生成表达性面部动作的先进生成模型，预测数据点的速度场，指导数据点从简单的先验分布向目标分布移动。
- 在训练中用条件流匹配（Conditional Flow Matching, CFM）目标，优化模型预测的准确性。
推理过程（Inference Process）：
- 在推理阶段，MimicTalk用ICS-A2M模型和个性化渲染器生成高质量的说话人脸视频。
- 推理过程涉及将音频输入与目标人物的参考视频相结合，产生模仿特定说话风格的面部动作。
数据和训练效率：MimicTalk的设计注重样本效率和训练效率，能在极短的时间内用少量数据完成新身份的适应。