LivePortrait – 快手推出的开源人像动画生成框架

LivePortrAIt是什么

LivePortrait是快手推出的开源人像动画生成框架，专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像，创造出富有表现力的视频。该技术通过隐式关键点框架实现，利用大规模高质量训练数据和混合训练策略，提升了模型的泛化能力和动作控制精度。LivePortrait在RTX 4090 GPU上的单帧生成速度极快，达到12.8毫秒，且具有进一步优化潜力。开源社区对其反响热烈，LivePortrait的GitHub页面提供了详细的使用指南和资源。

LivePortrait的主要功能

表情和姿态迁移：LivePortrait能够将驱动视频中的表情和姿态实时迁移到静态或动态人像上，生成具有丰富表情的视频。
高效率：该框架在RTX 4090 GPU上单帧生成速度可达12.8毫秒，展现出极高的处理速度。
泛化能力：通过视频-图片混合训练策略和大规模高质量训练数据，LivePortrait具备良好的泛化性，能够适应不同风格和身份的人像。
可控性：利用隐式关键点和轻量级MLP网络，LivePortrait增强了对动画生成过程的控制能力。
多风格支持：LivePortrait能够处理多种风格的人像，包括真人和风格化（如动漫）人像。
高分辨率动画生成：LivePortrait支持生成高分辨率的动画，提供更清晰的视觉效果。
贴合和重定向模块：设计了贴合模块和眼部、嘴部重定向模块，以适应裁切、多人合照等复杂场景，避免像素错位。

LivePortrait的技术原理

基础模型训练：在第一阶段，主要对外观提取器、运动提取器、扭曲模块和解码器进行优化，模型都是从头开始训练的。
拼接和重定向模块训练：在第一阶段训练好基础模型后，会冻结外观提取器、运动提取器、扭曲模块和解码器，在第二阶段保持不变。在第二阶段，仅对拼接模块和重定向模块进行优化。
视频-图像混合训练：LivePortrait 将每张图片视为一帧视频片段，并同时在视频和图片上训练模型，提升模型的泛化能力。
升级的网络结构：LivePortrait 将规范隐式关键点估计网络、头部姿态估计网络和表情变形估计网络统一为一个单一模型，并采用ConvNeXt-V2-Tiny为其结构，直接估计输入图片的规范隐式关键点、头部姿态和表情变形。
关键点引导的隐式关键点优化：引入2D关键点来捕捉微表情，用关键点引导的损失作为隐式关键点优化的引导。
级联损失函数：采用face vid2vid的隐式关键点不变损失、关键点先验损失、头部姿态损失和变形先验损失，并施加感知和GAN损失，提升纹理质量。