SeedFoley – 字节推出的端到端视频音效生成模型

SeedFoley是什么

SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型，为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型，实现音效与视频的高度同步。模型采用快慢特征组合的视频编码器，提取视频的时空特征，同时基于原始波形作为输入的音频表征模型，保留高频信息，提升音效细腻程度。扩散模型通过优化概率路径上的连续映射关系，减少推理步数，降低推理成本。 SeedFoley 能精准提取视频帧级视觉信息，智能区分动作音效和环境音效，支持多种视频长度，在音效准确性、同步性和匹配度上表现优异。

SeedFoley的主要功能

智能生成音效：SeedFoley 能精确提取视频帧级视觉信息，通过分析多帧画面信息，精准识别视频中的发声主体及动作场景，比如节奏感强烈的音乐瞬间，电影中的紧张情节，能精准卡点，营造出身临其境的逼真体验。
区分音效类型：SeedFoley 可智能区分动作音效和环境音效，显著提升视频的叙事张力和情感传递效率。
支持多种视频长度：SeedFoley 能支持可变长度的视频输入，在音效准确性、音效同步性和音效匹配度等指标上都取得了领先水平。

SeedFoley的技术原理

视频编码器：SeedFoley 的视频编码器采用快慢特征组合的方式，在高帧率上提取帧间的局部运动信息，在低帧率上提取视频的语义信息。通过这种方式，模型能在低计算资源下实现 8fps 的帧级别视频特征提取，实现精细动作定位。最后基于 Transformer 结构融合快慢特征，实现视频的时空特征提取。
音频表征模型：与传统的基于梅尔频谱的 VAE 模型不同，SeedFoley 采用原始波形作为输入，经过编码后得到 1D 的表征。音频采用 32k 的采样率，确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征，有效提升音频在时序上的分辨率，提升音效的细腻程度。
扩散模型：SeedFoley 采用 Diffusion Transformer 框架，通过优化概率路径上的连续映射关系，实现从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性，SeedFoley 通过构建连续变换路径，有效减少推理步数，降低推理成本。在训练阶段，将视频特征与音频语义标签分别编码为隐空间向量，通过通道维度拼接将二者与时间编码及噪声信号进行混合，形成联合条件输入。提升了音效和视频画面在时序上的一致性。

如何使用SeedFoley

访问即梦平台：访问即梦的官方网站或使用即梦 App，注册并登录。
生成视频：在即梦上选择视频生成功能，根据您的需求生成视频内容。
选择「AI 音效」功能：在生成视频后，选择「AI 音效」功能。系统会自动为您的视频生成 3 个专业级音效方案。
预览和选择音效方案：预览生成的音效方案，选择最适合您视频内容的音效方案。
应用音效：将选择的音效方案应用到您的视频中。
注意事项：
- 视频长度：SeedFoley 支持可变长度的视频输入，但建议视频长度不要过长，确保生成效果。
- 音效类型：SeedFoley 可智能区分动作音效和环境音效，提升视频的叙事张力和情感传递效率。
- 预览效果：在选择音效方案时，建议仔细预览每个方案的效果，选择最适合您视频内容的音效。