在人工智能领域,谷歌旗下的DeepMind公司再次取得突破性进展,推出了一款名为V2A(Video-to-Audio,视频到音频)的AI模型。该项技术能够将视频像素与文本提示相结合,为无声视频生成包含对话、音效和音乐的详细音频轨道。
V2A技术不仅可以与DeepMind自家的视频生成模型Veo配合使用,还能与Sora、可灵或Gen 3等竞争对手的视频生成模型相结合,为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。当然,这项技术同样适用于为传统影像资料,如档案影像和无声电影添加声音。V2A的强大之处在于,能够为每个视频输入创造无限数量的音轨。
DeepMind团队表示,V2A模型基于扩散模型,在同步视频和音频方面提供了最逼真和令人满意的结果。V2A系统首先将视频输入编码为压缩表示,然后扩散模型在视觉输入和文本提示的指导下,从随机噪声中逐渐细化音频。最终,音频输出被解码、转换为音频波形,并与视频数据结合。
为了提高音频质量,DeepMind在训练过程中增加了额外信息,包括AI生成的声音描述和对话的转录。这样,V2A学会了将某些音频事件与不同的视觉场景联系起来,并响应描述或转录中包含的信息。
然而,V2A技术也存在一些限制。例如,音频输出的质量取决于视频输入的质量。视频中的伪影或失真,如果超出了模型的训练分布,可能会导致音频质量显著下降。此外,视频中的唇形同步仍然不够稳定。
目前,V2A尚未公开发布。DeepMind正在收集来自顶尖创意人士和电影制作人的反馈,以确保V2A能够对创意社区产生积极影响。公司表示,在考虑更广泛的访问之前,V2A将经过严格的安全评估和测试。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...