mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型，单页仅需324个token

mPLUG-DocOwl2是什么

mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别（OCR）技术的情况下，通过高分辨率文档图像压缩技术，实现对文档图片的高效理解和处理。mPLUG-DocOwl 2在多页文档理解基准测试中达到了新的最高标准（SOTA），每页文档图像消耗324个token，降低显存占用和首包时间，提高处理速度。模型的训练分为三个阶段：单页预训练、多页预训练和多任务指令微调。mPLUG-DocOwl 2支持理解单页文档，还能处理多页文档中的复杂问题，如跨页内容关联和结构解析。

mPLUG-DocOwl2的主要功能

多页文档理解：在不依赖OCR技术的情况下，直接从多页文档图像中提取和理解信息。
高分辨率图像处理：通过高分辨率文档图像压缩模块，将每页文档图像压缩成324个视觉token，减少显存占用和首包时间。
多页问答能力：回答有关多页文档内容的问题，提供详细的解释以及相关页码。
文档结构解析：解析并表示多页文档的层级结构，以JSON格式输出，便于进一步的数据处理和分析。
跨页内容关联：理解和关联多页文档中跨页的内容，提供跨页结构理解。
高效处理：在单个A100-80G GPU上，同时处理多达60页的高清文档图片，提高处理效率。

mPLUG-DocOwl2的技术原理

高分辨率文档图像压缩（High-resolution DocCompressor）：基于低分辨率全局视觉特征作为指导，通过cross-attention机制将高分辨率文档图像压缩成较少的视觉token。
Shape-adaptive Cropping：自适应裁剪模块根据文档的形状和大小进行切割，来适应不同页面的布局。
视觉特征提取：使用视觉编码器（如ViT）提取每个切片的视觉特征，并通过H-Reducer模块进行特征合并和维度对齐。
跨注意力机制：在压缩过程中，使用全局图特征作为查询，切片特征作为键值对，通过cross-attention层实现特征压缩。
全局与局部视觉特征结合：结合全局视觉特征（捕捉布局信息）和局部视觉特征（保留文本和图像细节），实现更准确的文档理解。