LongReward – 清华、中科院、智谱AI联合推出提升长文本大语言模型性能的方法

LongReward是什么

LongReward是清华大学、中国科学院、智谱AI联合推出的，基于AI反馈改进长文本大型语言模型（LLMs）性能的方法。LongReward从有用性、逻辑性、忠实性和完整性四个维度为模型响应打分，提供奖励信号，强化学习的方式优化模型，让模型在处理长文本时更准确、一致，能更好地遵循指令。提升模型的长文本处理能力，增强遵循简短指令的效率。

LongReward的主要功能

多维度评分：从有用性（Helpfulness）、逻辑性（Logicality）、忠实性（Faithfulness）和完整性（Completeness）四个维度对长文本模型的响应进行评分。
奖励信号提供：用现成的大型语言模型（LLM）作为评分工具，为长文本模型的回复提供奖励信号，信号用在强化学习（RL）。
强化学习整合：结合离线强化学习算法DPO（Direct Preference Optimization），基于优化模型输出符合偏好要求，提升模型性能。
性能提升：显著提高模型在长文本任务上的性能，包括更好地理解和利用上下文信息，减少幻觉（hallucination）现象。
遵循指令能力增强：增强模型遵循简短指令的能力，提升模型的实用性和灵活性。

LongReward的技术原理

多维度评估：
- 有用性（Helpfulness）：评估模型回复是否与用户查询相关，是否提供了有用的信息，是否满足用户需求。
- 逻辑性（Logicality）：检查模型回复的逻辑一致性，包括观点的一致性和推理的正确性。
- 忠实性（Faithfulness）：衡量模型回复中的事实信息是否与上下文一致，确保信息的真实性。
- 完整性（Completeness）：评估模型回复是否覆盖了上下文中所有与问题相关的关键点，提供足够的信息和细节。
利用现成的大型语言模型（LLM）：用现成的高性能LLM作为评分工具，对模型的生成内容进行评分。
少样本学习和思维链（Chain-of-Thought, CoT）：对于有用性和逻辑性评分，基于少样本学习和CoT让LLM直接基于查询和回复内容进行评分。
事实性陈述分解和检索：对于忠实性评分，将模型回复分解为事实性陈述，检索上下文中最相关的部分判断每个陈述是否得到支持。
粗粒度上下文分解：对于完整性评分，将上下文分解为粗粒度的块，提取与问题相关的信息，再评估模型回复是否包含所有重要信息。