DCLM-7B 是什么
DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型,性能超越Mistral-7B,接近Llama 3和Gemma。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型基于240T Common Crawl数据,通过标准化的DCLM-POOL和OpenLM框架预训练,实现了64%的5-shot MMLU准确率,训练效率显著。DCLM-7B的开源包括权重、训练代码和数据集,推动了LLM开源社区的发展,提供了高质量数据集DCLM-BASELINE,为数据驱动的模型研究设立了新基准。
DCLM-7B 的技术原理
- 大规模数据集:DCLM-7B使用了从Common Crawl中提取的240万亿个令牌构成的标准化语料库,为模型提供了丰富的训练数据。
- 数据筛选:通过模型基础的过滤方法,从大规模数据集中筛选出高质量的训练数据,是构建DCLM-7B的关键步骤。
- OpenLM框架:基于OpenLM框架,DCLM-7B采用了有效的预训练方案,提供了标准化的训练流程和超参数设置。
- 标准化评估:DCLM-7B在53个下游任务上进行了标准化评估,有助于量化训练集的优势和局限性。
- 模型架构:DCLM-7B采用的是decoder-only的Transformer模型架构,是一种常用于语言模型的深度学习架构。
- 训练优化:在训练过程中,DCLM-7B使用了特定的优化技术,如z-loss,以保持输出logit的数值稳定性。
- 多尺度训练:DCLM-7B在不同的计算规模上进行了训练,从412M到7B参数的模型,有助于理解不同训练规模对模型性能的影响。
DCLM-7B 的项目地址
- 项目官网:https://huggingface.co/apple/DCLM-7B
- GitHub仓库:https://github.com/mlfoundations/dclm
- arXiv技术论文:https://arxiv.org/pdf/2406.11794
DCLM-7B 的适用人群
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...