MiLoRA – 上海财经、南方科技和清华大学联合推出针对LLMs的微调方法

MiLoRA是什么

MiLoRA是参数高效的大型语言模型（LLMs）微调方法，通过更新权重分量来矩阵的次要奇异减少计算和内存成本。方法基于奇异值分解（SVD）将权重矩阵分为主要和次要两部分，主要部分包含重要知识，次要部分包含噪声或长尾信息。在微调过程中，MiLoRA保持主要部分不变，只优化次要部分，在适应新任务的同时保留预训练模型的知识。实验表明，MiLoRA在多个基准测试中性能优于传统方法，训练和推理效率更高。

MiLoRA的主要功能

参数高效微调：MiLoRA用更少的参数调整来微调大型语言模型，减少计算资源的需求。
减少延迟：基于提示的路由机制，MiLoRA减少在多租户环境中生成新标记时的延迟。
性能提升：在各种自然语言处理任务中，MiLoRA显示出比传统LoRA方法更好的性能。
专家系统：将每个LoRA模块视为一个专家，基于路由机制动态选择最合适的专家进行处理。
适应性：根据输入提示动态决定激活哪些LoRA专家，提高模型的适应性和灵活性。

MiLoRA的技术原理

LoRA模块作为专家：在MiLoRA中，每个LoRA模块被视为一个专家，负责处理特定的任务或数据子集。
基于提示的路由机制：MiLoRA引入一个基于输入提示的路由机制，路由机制在生成第一个新标记之前计算专家路由结果，并在后续标记生成中重用结果，避免对每个新标记都进行路由计算的需要。
低秩适应（LoRA）：基于低秩矩阵对Transformer层的权重进行重新参数化，实现参数的高效调整。
动态专家选择：在Transformer层级上，MiLoRA动态选择哪个LoRA专家（即哪个Transformer模块的LoRA）被激活。
负载均衡损失：为平衡不同LoRA专家的使用，MiLoRA在训练过程中加入负载均衡损失，确保模型不会过度依赖某些专家。