琴乐大模型 – 腾讯推出的AI音乐创作大模型

琴乐大模型是什么

琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型，该模型通过输入中英文关键词、描述性语句或音频，能够直接生成立体声音频或多轨乐谱。琴乐大模型支持自动编辑，如续写、重新生成指定音轨或小节，以及修改乐器类型和节奏。目前，琴乐大模型的技术已经上线腾讯音乐启明星平台，用户可以免费注册体验。未来，研究团队还计划在模型中加入人声、歌词等要素的生成能力，以更好地服务音乐创作需求。

琴乐大模型的功能特色

音乐生成：模型能够根据用户提供的中英文关键词、描述性语句或音频输入，智能生成音乐。这种生成不仅基于文本描述，还能够理解音频内容，实现音乐的自动创作。
乐谱生成：除了生成音频，「琴乐大模型」还能生成详细的乐谱，这些乐谱包含旋律、和弦、伴奏和打击乐等多个轨道，为用户提供了丰富的音乐结构。
自动编辑：模型支持对生成的乐谱进行一系列自动编辑操作，包括但不限于续写乐谱、重新生成特定的音轨或小节、调整配器、修改乐器类型和节奏，这大大提高了创作的灵活性和效率。
音频文本对齐：通过对比学习技术，模型构建了一个共享特征空间，将音频标签或文本描述与音频本身进行对齐，为生成模型提供条件控制信号，增强了音乐生成的相关性和准确性。
乐谱/音频表征提取：模型能够将乐谱或音频转换成一系列离散的特征（token）序列，这些序列为大语言模型的预测提供了基础。
大语言模型预测：使用decoder-only结构，模型通过特征预测（next token prediction）训练，预测出的序列可以转换回乐谱或音频，实现了从文本到音乐的转换。
音频恢复：通过流匹配和声码器技术，模型能够将预测出的音频表征序列恢复成可听音频，增强了音频的真实感和质量。
音乐理论遵循：在生成音乐的过程中，「琴乐大模型」遵循音乐理论，确保旋律、和弦、节拍等元素符合音乐逻辑和人类审美。

如何体验和使用琴乐大模型

注册与登录：访问腾讯音乐启明星平台（https://y.qq.com/venus/#/venus/aigc/ai_compose），并注册一个账户或使用现有账户登录。
输入创作条件：在体验页面上，输入音乐关键词、语句或描述，这些将作为模型生成音乐的依据。
选择音乐模型：目前仅有琴乐音乐生成大模型v1.0供选择。
选择音乐时长：可选择10秒至30秒的音乐时长
生成音乐：点击开始生成，等待1分钟左右音乐即可生成，生成后的音乐可以进行播放和下载

琴乐大模型的技术原理

音频文本对齐模型：这一模块使用对比学习构建音频标签或文本描述与音频之间的共享特征空间。通过这种方式，模型能够理解文本和音频之间的语义关系，并在生成过程中使用这些信息作为条件控制信号。
乐谱/音频表征提取：模型将乐谱或音频转换为离散的特征序列，这些序列可以是MIDI属性的表征，也可以是预先训练的音频频谱的编码和压缩后的表征。
大语言模型：使用decoder-only结构的大语言模型，进行特征预测（next token prediction）训练。这种模型能够根据输入的特征序列预测下一个特征，从而生成连续的音乐元素。
流匹配与声码器技术：在生成音频的过程中，模型使用流匹配技术与声码器模块，将预测出的音频表征序列转换为可听音频，增强音频的真实感。
多模块协同工作：「琴乐大模型」包含了多个模块，这些模块协同工作以实现音乐生成的效果。例如，音频文本对齐模型在训练过程中提供条件控制信号，而在推理过程中则使用文本表征作为控制信号。
音乐理论遵循：在生成音乐的过程中，模型需要遵循音乐理论，包括旋律、和弦、节奏等元素的合理性，以确保生成的音乐符合人类的听觉习惯和审美标准。
自动编辑与调整：模型支持对生成的乐谱进行自动编辑操作，如续写、重新生成指定轨或小节，以及修改乐器类型和节奏，这使得音乐创作过程更加灵活。
端到端的生成流程：从文本输入到音频输出，「琴乐大模型」实现了端到端的生成流程，减少了人工干预，提高了音乐创作的效率。
大规模双盲听测：通过大规模双盲听测，模型的生成质量得到了验证，其多维度主观评分超越了业内标准。