ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型

什么是Consisisid?

Consisisid是北京大学、鹏城实验室等机构推出的视频文本(Text-to-Video, IPT2V)基于频率分解技术,生成模型,以保持视频中人物身份的一致性。模型免调优(tuning-free)Diffusion Transformer(DiT)结构,结合低频的整体特征和高频的内部特征,生成高质量、可编辑、高身份一致性的视频。Consisid在多个评估维度上超越了现有技术,促进了身份一致性视频生成技术的发展。

Consisisid的主要功能

  • 身份保持:在视频制作过程中保持人物身份的一致性,确保视频中的人物特征与提供的参考图像相匹配。
  • 生成高质量的视频:视觉上生成逼真、细节丰富的视频内容。
  • 无需微调:作为免调优(tuning-free)模型不需要对每个新案例进行微调,降低了使用门槛。
  • 可编辑性:支持用户使用文本提示来控制视频内容,包括角色动作、表情和背景。
  • 泛化能力:能够处理训练数据领域以外的人物,提高模型的泛化能力。

技术原理ConsisID

  • 频率分解
    • 低频控制:利用全局人脸特征提取器,将参考图像和人脸关键点编码成低频特征,集成到网络浅层,缓解训练难度。
    • 高频控制:设计局部人脸特征提取器,将高频细节注入Transformer模块,提高模型保留细粒度特征的能力。
  • 层次化训练策略
    • 粗到细训练:先让模型学习全局信息,再细化到局部信息,保持视频在空间和时间维度上的一致性。
    • 动态掩码损失(Dynamic Mask Loss):用人脸mask约束损失函数的计算,让模型专注于人脸区域。
    • 动态跨脸损失(Dynamic Cross-Face Loss):引入跨面部参考图像,提高模型对未见身份的泛化能力。
  • 特征融合:基于Q-Former集成特征,用人脸识别骨干网络和CLIP图像编码器提取特征,生成包含高频语义信息的内在身份特征。
  • 交叉注意机制:在交叉注意机制的基础上,模型可以与预训练模型产生的视觉标记进行交互,从而有效地增强DiT中的高频信息。

Consisid项目地址

ConsisID的应用场景

  • 个性化娱乐:在社交媒体平台或个人娱乐中,用户创建与自己或指定角色相似的虚拟图像。
  • 虚拟主播:在新闻广播或网络直播中,由Consisid生成的虚拟主播24小时不间断工作。
  • 电影和电视制作:在电影的后期制作中,用于生成特效场景中的角色,或创造新的虚拟角色。
  • 游戏行业:为游戏角色设计提供原型,或在游戏中生成与玩家相似的非玩家角色(NPC)。
  • 教育与模拟训练:为教育目的或专业培训,如医疗模拟、驾驶培训等,创建历史人物或模拟特定场景。
© 版权声明

相关文章

暂无评论

none
暂无评论...