热门

PortraitGen – 中科大推出的AI人像视频编辑工具

AI工具8个月前发布 AI工具

什么是PortrAItgen？

Portraitgen是中国科技大学研究团队推出的人工智能肖像视频编辑工具。基于3D高斯溅射技术和神经高斯纹理机制，将2D肖像视频转换为4D高斯场，实现高质量的3D和时间一致性编辑。该工具支持多模式编辑，包括文本驱动、图像驱动编辑和重新照明，可以快速有效地风格化、更换、调整视频中的角色。Portraitgen通过面部感知编辑和表达式相似性指导，确保编辑后的肖像自然，并与原始视频帧一致。

Portraitgen的主要功能

多模态肖像编辑：它支持两种编辑模式：文本驱动和图像驱动。用户可以通过输入文本描述来指定角色的动作、表情和场景变化，或者使用参考图像来实现风格转换或虚拟试穿。
光照调节（Relighting）：基于IC-Light技术，基于文本描述动态调整视频中的光效果，使光与场景自然融合。
人脸感知编辑：通过面部感知编辑模块，确保人物的面部结构和个性化特征在视频编辑过程中得到保留，人物表达和面部动作的自然性和一致性得到优化。
风格转换与虚拟试穿：支持风格转换和虚拟试穿。用户可以通过参考图像实现全球风格的迁移（如动画风格的转换），或者在视频中添加虚拟服装等物品。
多镜头和复杂场景处理：可以处理多镜头视频，保持风格和人物的一致性，通过高斯纹理技术实现乐高风格或像素艺术风格等复杂风格的视频渲染。
快速生成和高帧率输出：编辑可以在短时间内完成，视频支持每秒100帧（FPS）渲染速度适用于高效视频制作场景。

Portraitgen的技术原理

3D高斯溅射(3DGS)：动态3D场的构建是基于3D高斯的表示场景，通过3D协方差矩阵定义每个高斯的中心点、方向和大小，以及不透明度和颜色属性。
神经高斯纹理机制：根据输入视频跟踪的底层网格变形，在SMPL-X模型的UV空间上维护3D高斯场，用UV映射器和2D神经渲染器将特征图转换为RGB信号。
面部感知编辑模块：编辑头部区域两次，增强面部结构感知，提高编辑质量。
表达式相似性指导：将渲染图像和输入源图像映射到EMOCA的潜在表达空间，并使用损失函数确保表达的相似性。
多模式编辑技术：结合大规模2D生成模型的知识，实现文本驱动编辑、图像驱动编辑和重新照明。

PortraitGen项目地址

项目官网：ustc3dv.github.io/PortraitGen
GitHub仓库：https://github.com/USTC3DV/PortraitGen-code
arxiv技术论文：https://arxiv.org/pdf/2409.13591

Portraitgen的应用场景

电影和影视制作：在电影、电视剧或短片的制作中，创造或修改角色的外观，实现特效化妆或风格化的场景转换。
艺术创作：用于艺术家和插画家 PortraitGen 创作具有特定风格的肖像艺术作品，如将肖像转化为像素艺术或油画风格。
广告和宣传：在广告行业，根据品牌形象或产品特点，对人物肖像进行定制编辑，吸引目标受众。
时尚行业：基于虚拟试穿功能，时尚设计师和零售商在虚拟环境中展示服装和配饰，为顾客提供新的购物体验。
社交媒体和短视频：内容创作者和影响者的使用 PortraitGen 编辑自己的肖像视频，增加创意效果，提高内容的吸引力和互动性。
游戏开发：在游戏角色设计中，快速生成或编辑角色外观，提高游戏的个性化和丰富性。

AI工具 # # AI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Bytespider – 字节跳动推出的AI模型数据网络爬虫工具

Bytespider – 字节跳动推出的AI模型数据网络爬虫工具

AI工具 # # AI

8个月前

0120

Tripo AI – 在线3D建模平台，支持文本、图像生成高质量3D模型

Tripo AI – 在线3D建模平台，支持文本、图像生成高质量3D模型

AI工具 # # AI

8个月前

01640

StarCoder 2 – BigCode推出的第二代开源代码大模型

StarCoder 2 – BigCode推出的第二代开源代码大模型

AI工具 # # AI

8个月前

010

Spirit LM – Meta推出多模态语言模型，无缝集成语音和文本

Spirit LM – Meta推出多模态语言模型，无缝集成语音和文本

AI工具 # # AI

8个月前

080

暂无评论

暂无评论...