AnchorCrafter – 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

Anchorcrafter是什么？

Anchorcrafter是一个基于扩散模型的智能视频制作系统，用于自动生成具有高保真度的主播风格产品推广视频。基于人物交互的整合（HOI）在态度引导的人体视频生成中，实现了对物体外观和运动控制的高度恢复，以及对复杂人物-物体交互的管理。该系统使用HOI-appearance perception和HOI-motion injection技术和HOI-region reweighting loss的训练目标是加强对物体细节的学习，确保视频生成过程中角色外观和动作的一致性。Anchorcrafter在物体外观保持、互动感知和视频质量方面优于现有方法，为在线广告和消费者参与提供了新的可能性。

主要功能是AnchorCrafter

生成高质量的视频：主播风格产品推广视频自动创建高保真度。
人-物交互（HOI）集成：将人物与物体的互动自然融入视频，提高视频的真实性和互动性。
外观保持：将物体的外观细节保持在视频中，以确保从多个角度观察物体的外观准确。
运动控制：准确控制物体的运动轨迹，协调人物的运动。
互遮挡管理：处理角色与物体交互时的屏蔽问题，保持视频的连贯性和自然性。
加强学习的细节：基于HOI-region reweighting 在训练过程中，loss加强了对物体细节的学习。

Anchorcrafter的技术原理

视频扩散模型：扩散UNet和变分自编码器是基于扩散模型架构的（VAE）处理视频帧，将视频序列编码到潜在空间，从噪声中重建高质量的视频帧。
HOI-外观感知（HOI-appearance perception）：
- 多视角特征融合：利用多视角物体参考图像提取物体的外观特征，提高模型识别物体形状和纹理的能力。
- 人-物双适配器：在替换UNet中的交叉注意层的基础上，更好地分离人物和物体特征，避免外观纠缠。
HOI-运动注入（HOI-motion injection）：
- 物体轨迹控制：以深度图为输入，基于轻量级卷积网络处理深度信息，控制视频中物体的运动轨迹。
- 互遮挡处理：结合3D手网输入，处理人物手与物体交互时的遮挡问题，保证交互的自然性和准确性。
HOI区域的重加权损失（HOI-region reweighting loss）：在训练过程中，增加手-物体交互区域的权重，使模型更加关注这些区域，提高物体细节的学习和生成质量。