谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

在人工智能领域，谷歌旗下的DeepMind公司再次取得突破性进展，推出了一款名为V2A（Video-to-Audio，视频到音频）的AI模型。该项技术能够将视频像素与文本提示相结合，为无声视频生成包含对话、音效和音乐的详细音频轨道。

V2A技术不仅可以与DeepMind自家的视频生成模型Veo配合使用，还能与Sora、可灵或Gen 3等竞争对手的视频生成模型相结合，为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。当然，这项技术同样适用于为传统影像资料，如档案影像和无声电影添加声音。V2A的强大之处在于，能够为每个视频输入创造无限数量的音轨。

DeepMind团队表示，V2A模型基于扩散模型，在同步视频和音频方面提供了最逼真和令人满意的结果。V2A系统首先将视频输入编码为压缩表示，然后扩散模型在视觉输入和文本提示的指导下，从随机噪声中逐渐细化音频。最终，音频输出被解码、转换为音频波形，并与视频数据结合。

为了提高音频质量，DeepMind在训练过程中增加了额外信息，包括AI生成的声音描述和对话的转录。这样，V2A学会了将某些音频事件与不同的视觉场景联系起来，并响应描述或转录中包含的信息。

然而，V2A技术也存在一些限制。例如，音频输出的质量取决于视频输入的质量。视频中的伪影或失真，如果超出了模型的训练分布，可能会导致音频质量显著下降。此外，视频中的唇形同步仍然不够稳定。

目前，V2A尚未公开发布。DeepMind正在收集来自顶尖创意人士和电影制作人的反馈，以确保V2A能够对创意社区产生积极影响。公司表示，在考虑更广泛的访问之前，V2A将经过严格的安全评估和测试。

（更多信息：Google DeepMind – Generating audio for video）