Llama 3 – Meta开源推出的新一代大语言模型

Llama 3是什么

Llama 3是Meta公司最新开源推出的新一代大型语言模型（LLM），包含8B和70B两种参数规模的模型，标志着开源人工智能领域的又一重大进步。作为Llama系列的第三代产品，Llama 3不仅继承了前代模型的强大功能，还通过一系列创新和改进，提供了更高效、更可靠的AI解决方案，旨在通过先进的自然语言处理技术，支持广泛的应用场景，包括但不限于编程、问题解决、翻译和对话生成。

Llama 3的系列型号

Llama 3目前提供了两种型号，分别为8B（80亿参数）和70B（700亿参数）的版本，这两种型号旨在满足不同层次的应用需求，为用户提供了灵活性和选择的自由度。

Llama-3-8B：8B参数模型，这是一个相对较小但高效的模型，拥有80亿个参数。专为需要快速推理和较少计算资源的应用场景设计，同时保持了较高的性能标准。
Llama-3-70B：70B参数模型，这是一个更大规模的模型，拥有700亿个参数。它能够处理更复杂的任务，提供更深入的语言理解和生成能力，适合对性能要求更高的应用。

后续，Llama 3 还会推出 400B 参数规模的模型，目前还在训练中。Meta 还表示等完成 Llama 3 的训练，还将发布一份详细的研究论文。

Llama 3的官网入口

官方项目主页：https://llama.meta.com/llama3/
GitHub模型权重和代码：https://github.com/meta-llama/llama3/
Hugging Face模型：https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

Llama 3的改进地方

参数规模：Llama 3提供了8B和70B两种参数规模的模型，相比Llama 2，参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
训练数据集：Llama 3的训练数据集比Llama 2大了7倍，包含了超过15万亿个token，其中包括4倍的代码数据，这使得Llama 3在理解和生成代码方面更加出色。
模型架构：Llama 3采用了更高效的分词器和分组查询注意力（Grouped Query Attention, GQA）技术，提高了模型的推理效率和处理长文本的能力。
性能提升：通过改进的预训练和后训练过程，Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
安全性：引入了Llama Guard 2等新的信任和安全工具，以及Code Shield和CyberSec Eval 2，增强了模型的安全性和可靠性。
多语言支持：Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据，为未来的多语言能力打下了基础。
推理和代码生成：Llama 3在推理、代码生成和指令跟随等方面展现了大幅提升的能力，使其在复杂任务处理上更加精准和高效。

Llama 3的性能评估

根据Meta的官方博客，经指令微调后的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等数据集基准测试中都优于同等级参数规模的模型（Gemma 7B、Mistral 7B），而微调后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基准测试中也都优于同等规模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。

此外，Meta还开发了一套新的高质量人类评估集，包含 1800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。通过与Claude Sonnet、Mistral Medium和GPT-3.5等竞争模型的比较，人类评估者基于该评估集进行了偏好排名，结果显示Llama 3在真实世界场景中的性能非常出色，最低都有52.9%的胜出率。

Llama 3的技术架构

解码器架构：Llama 3采用了解码器（decoder-only）架构，这是一种标准的Transformer模型架构，主要用于处理自然语言生成任务。
分词器和词汇量：Llama 3使用了具有128K个token的分词器，这使得模型能够更高效地编码语言，从而显著提升性能。
分组查询注意力（Grouped Query Attention, GQA）：为了提高推理效率，Llama 3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组，减少了计算量，同时保持了模型的性能。
长序列处理：Llama 3支持长达8,192个token的序列，使用掩码（masking）技术确保自注意力（self-attention）不会跨越文档边界，这对于处理长文本尤其重要。
预训练数据集：Llama 3在超过15TB的token上进行了预训练，这个数据集不仅规模巨大，而且质量高，为模型提供了丰富的语言信息。
多语言数据：为了支持多语言能力，Llama 3的预训练数据集包含了超过5%的非英语高质量数据，涵盖了超过30种语言。
数据过滤和质量控制：Llama 3的开发团队开发了一系列数据过滤管道，包括启发式过滤器、NSFW（不适合工作场所）过滤器、语义去重方法和文本分类器，以确保训练数据的高质量。
扩展性和并行化：Llama 3的训练过程中采用了数据并行化、模型并行化和流水线并行化，这些技术的应用使得模型能够高效地在大量GPU上进行训练。
指令微调（Instruction Fine-Tuning）：Llama 3在预训练模型的基础上，通过指令微调进一步提升了模型在特定任务上的表现，如对话和编程任务。