PoseTalk – 文本和音频驱动的生成会说话的头部动画开源项目

PoseTalk是什么

PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目，用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频，为用户提供高效、便捷的头部动画生成方式。PoseTalk 的核心在于基于文本提示和音频线索，在姿势潜在空间中生成运动潜在，实现自然、逼真的头部运动效果。通过 Pose Latent Diffusion (PLD) 模型和级联网络 CoarseNet 与 RefineNet，实现高质量的唇部同步和头部姿势生成，适用于多种应用场景，如虚拟主播、在线教育和社交媒体。

PoseTalk的主要功能

文本和音频驱动的姿势生成：PoseTalk 根据文本提示和音频输入生成头部姿势，反映头部动作的长期语义和短期变化。
姿势潜在扩散模型（PLD）：PoseTalk 在姿势潜在空间中生成运动潜在，实现自然、逼真的头部运动。
级联网络细化策略：基于 CoarseNet 和 RefineNet 两个级联网络，先估计粗略的运动产生新姿势的动画图像，然后细化唇部运动，提高唇部同步性能。
高唇部同步质量：通过运动细化策略，PoseTalk 生成的头部动画与音频高度同步，特别是在口型同步方面表现出色。
多样化的姿势生成：用户通过不同的文本提示来指导 PoseTalk 生成多种姿势，增加生成动画的多样性和可定制性。

PoseTalk的技术原理

Pose Latent Diffusion (PLD) 模型：在神经参数头部模型的表达空间中工作，捕捉到人头的精细细节。PLD 模型通过文本和音频信息转化为头部的姿势和运动信息，为后续的动画生成提供基础。
级联网络细化策略：PoseTalk 使用两个级联网络 CoarseNet 和 RefineNet 来合成自然说话视频。CoarseNet 负责估计粗略的运动，产生新姿势的动画图像。RefineNet 通过从低到高分辨率逐步估计唇部运动，学习更精细的唇部运动，提高唇部同步性能。
音频特征提取：PoseTalk 基于预先训练的音频编码器（如Wave2Vec 2.0 模型）从输入的音频信号中提取特征。音频特征与文本信息相结合，共同驱动头部模型的运动，使生成的头部动画能够与音频完美同步，实现口型、表情等方面的高度契合。
训练和推理：在训练阶段，PoseTalk 用变分自编码器（VAE）学习头部姿势和眼动的低维潜在空间。在推理阶段，PLD 预测自然的姿势序列，使用视频生成模型从音频特征和生成的姿势序列合成逼真的说话视频。