OpenCoder – 无限光年联合多所高校推出的开源代码大型语言模型

OpenCoder是什么

OpenCoder是墨尔本大学、复旦大学等高校研究人员联合无限光年推出的开源代码大型语言模型（LLM），能提升开源代码LLM的性能至专有模型水平，推动代码AI研究的透明化和可重复性。OpenCoder提供模型权重和推理代码，包括可复现的训练数据、完整的数据处理流程、严格的实验消融结果和详细的训练协议，助力研究社区构建和创新。

OpenCoder的主要功能

代码生成：OpenCoder能自动生成代码，辅助开发者快速实现功能需求。
代码审查：模型辅助进行代码审查，提高代码质量和维护性。
错误调试：辅助定位代码中的错误，加速调试过程。
代码补全：提供代码自动补全功能，减少开发者的重复工作。
多语言支持：支持多种编程语言，增强模型的通用性和适用性。

OpenCoder的技术原理

数据预处理：
- 原始代码收集：从GitHub等来源收集原始代码数据。
- 代码相关Web数据：从Web数据库中收集代码相关的Web数据。
- 数据清洗：去除无信息数据（如纯十六进制代码和过短代码片段）。
- 去重：基于精确和模糊去重方法，减少数据重复。
- 数据过滤：基于启发式规则过滤低质量代码。
模型架构：
- Transformer架构：用标准的Transformer架构，支持多头注意力机制。
- 旋转位置编码（RoPE）：用旋转位置编码处理长距离依赖关系。
训练策略：
- 预训练：在大规模数据上进行预训练，用WSD（Warmup, Steady, Decay）学习率调度方法。
- 退火训练：在预训练后进行退火训练，用高质量数据进一步提升模型性能。
- 指令微调：基于两阶段指令微调，先提升模型的通用能力，再针对代码任务进行细化。
后训练优化：
- 开源指令语料收集：从多个数据库中收集开源指令语料。
- 真实用户查询抽取：从真实对话数据中抽取用户查询，进行数据清洗。
性能评估：在多个编码基准测试中评估模型性能，包括代码生成、代码补全和代码理解任务。