Optima – 清华联合北邮推出优化通信效率和任务有效性的训练框架

什么是Optima?

Optima是清华大学基于大型语言模型推出的优化(LLM)多智能系统(MAS)框架。基于迭代的生成、排名、选择和培训范式,显著提高了通信效率和任务效果。Optima平衡了任务性能、令牌效率和通信可读性,探索了多种强化学习算法,整合蒙特卡洛树搜索技术,生成高质量的培训数据。在多智能身体任务中,Optima显示了超越单智能身体基线和传统MAS的性能,性能提高了2.8倍,并减少了令牌的使用。Optima的效率提高为更有效的推理计算和推理时间扩展规则的改进提供了新的可能性。

Optima的主要功能

  • 提高通信效率:O优化多智能系统(MAS)智能体间通信,减少完成任务所需的令牌(token)数量,提高通信效率。
  • 提高任务性能:提高智能体在复杂任务中的表现,包括信息不对称问答和复杂推理任务,基于迭代训练和奖励函数的平衡。
  • 可扩展性:在处理更大、更复杂的任务时,支持MAS保持有效性,提高系统的可扩展性。
  • 推理时间扩展规则改进:减少使用令牌,提供改进推理时间扩展规则的可能性,有助于在较低的计算成本下实现更好的性能。

Optima的技术原理

  • 迭代训练范式:基于迭代的生成(generate)、排名(rank)、选择(select)和训练(trAIn)范式,逐步优化智能体的行为。
  • 奖励函数:设计奖励函数,平衡任务性能、令牌效率和通信可读性,引导智能体在保持通信效率的同时完成任务。
  • 加强学习算法:探索包括监督微调(SFT)、直接偏好优化(DPO)各种强化学习算法,包括混合方法,优化智能身体的行为。
  • 搜索蒙特卡洛树(MCTS):集成MCTS启发技术,将对话轮作为树节点,探索多元化的交互路径,生成高质量的DPO训练数据。
  • 多目标优化:在提高任务性能的同时,注重通信效率和输出的可解释性,同时考虑多个目标。

Optima项目地址

Optima的应用场景

  • 信息不对称问答:在问答系统中,当问题的答案需要整合多个来源的信息时,优化智能体之间的沟通,提高答案的准确性和响应速度。
  • 复杂推理任务:对于需要多步骤推理的问题,如法律案例分析、科学问题回答等,帮助智能身体更有效地合作,得出正确的结论。
  • 软件开发:在软件开发中,协调不同功能模块的开发,优化开发过程,基于智能体间的有效沟通,提高代码质量。
  • 决策支持系统:帮助多个决策者或智能体共享信息,讨论方案,并在商业决策或政策制定过程中达成共识。
  • 多智能游戏:优化玩家之间的沟通策略,提高团队合作效率,需要多个玩家或智能体的合作。
© 版权声明

相关文章

暂无评论

none
暂无评论...