Llama 3.2 – Meta推出的中小型视觉语言模型和轻量级文本模型

Llama 3.2是什么

Llama 3.2是Meta公司最新推出的开源AI大模型系列，包括小型和中型视觉语言模型（11B和90B参数）以及轻量级纯文本模型（1B和3B参数）。Llama 3.2模型专为边缘设备和移动设备设计，支持128K令牌的上下文长度，并针对高通和联发科硬件进行优化。Llama 3.2模型在图像理解和文本处理任务上具有高性能，并且通过torchtune进行定制化微调，使用torchchat部署到本地，推动了AI技术的开放性和可访问性。

Llama 3.2的主要功能

视觉和文本处理能力：支持图像推理用例，如文档理解、图像描述和视觉锚定任务。
轻量级模型：提供多语言文本生成和工具调用能力，适合在设备上运行，保护用户隐私。
高性能：在本地边缘运行的重写任务和摘要等方面处于同类产品的领先地位。
优化硬件支持：特别优化了在高通和联发科硬件上的使用。
定制化和部署：用torchtune进行定制化微调，用torchchat部署到本地。

Llama 3.2的技术原理

模型架构：
- 适配器架构：支持图像输入，Llama 3.2用适配器架构，将预训练的图像编码器集成到预训练的语言模型中。
- 交叉注意力层：适配器由一系列交叉注意力层组成，将图像编码器的表示输入到语言模型中，实现图像和文本的对齐。
训练流程：
- 预训练：从预训练的Llama 3.1文本模型开始，添加图像适配器和编码器，在大规模的（图像，文本）对数据上进行预训练。
- 领域内数据训练：在中等规模的高质量领域内数据上进行训练，提高模型在特定任务上的性能。
- 知识增强训练：使用知识增强的（图像，文本）对数据进行训练，进一步提升模型的理解能力。
优化策略：
- 剪枝：通过剪枝技术减小模型大小，同时保留模型性能。
- 知识蒸馏：用较大的教师模型训练较小的学生模型，提高小模型的性能。
部署方法：
- 本地部署：模型在本地设备上运行，提供即时响应并保护用户隐私。
- Llama Stack分发：提供标准化的接口和工具，简化在不同环境中使用Llama模型的方式。
安全性：引入Llama Guard 3，过滤文本图像输入提示或文本输出响应，增强模型的安全性。