热门

mPLUG-DocOwl 1.5 – 阿里开源的多模态大型语言模型

AI工具8个月前发布 AI工具

mPLUG-DocOwl 1.5是什么

mPLUG-DocOwl 1.5是阿里巴巴集团推出的多模态大型语言模型，专注于OCR-free文档理解（无需光学字符识别）。基于统一结构的学习，模型增强了对文档、表格和图表等文本中丰富图像的结构信息理解能力。mPLUG-DocOwl 1.5包括文档、网页、表格、图表和自然图像五个领域：结构感知分析任务和多粒度文本定位任务。mPLUG-DocOwl 1.5H-Reducer模块减少视觉特征长度，保持布局信息，使模型能够有效处理高分辨率图像。在多个视觉文档理解基准测试中，该模型显示了行业领先的无OCR性能，并提高了SOTA性能超过10分。

mPLUG-DocOwl 1.5的主要功能

文档分析的结构感知：识别和分析文档中的文本结构，如换行和空格，理解文档的组织方式。
转Markdown表格：将表图像转换为Markdown格式，便于进一步处理和阅读。
将Markdown转移到图表中：将图表图像转换为Markdown格式，保留图表中的关键数据和结构信息。
自然图像分析：分析自然场景中的图像，识别和理解图像中的文本信息。
多粒度文本定位：定位不同粒度级别的文本(单词、短语、行、块)，增强模型识别文本位置的能力。

mPLUG-DocOwl 1.5技术原理

统一结构学习（Unified Structure Learning）：模型学习如何理解和处理文本丰富的图像，基于结构感知分析任务和多粒度文本定位任务。
H-Reducer视觉-文本模块：基于相邻水平的视觉特征，减少特征长度，保持布局信息，使大型语言模型能够更有效地处理高分辨率图像。
多模态大型语言模型（MLLM）：结合视觉编码器和大型语言模型，使用视觉文本模块(如H-Reducer），让模型理解并生成与视觉内容相关的语言描述。
大规模数据集训练：模型可以学习各种文档和图像中的文本结构和语义信息，例如DocStruct4M和DocReason25K等大规模标注数据集。
两阶段训练框架：一是统一结构学习，然后进行多任务调整，使模型在各种下游任务中表现良好。

mPLUG-DocOwl 1.5项目地址

GitHub仓库：X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
arxiv技术论文：https://arxiv.org/pdf/2403.12895

mPLUG-DocOwl 1.5应用场景

自动化文档处理：合同、发票、报告、表格等大量文件在企业或政府机构中自动分析和理解，提高工作效率，减少人工干预。
智能搜索引擎：MPLUG集成在搜索引擎中-DocOwl 1.5、提高图像中文本内容的搜索能力，提供更准确的搜索结果。
辅助阅读和理解：基于文档结构的分析，帮助用户更好地理解复杂文档的内容，特别是对视觉障碍者。
教育与学术研究：在教育领域，帮助学生和研究人员了解教科书、学术论文和研究材料中的复杂信息。
客户服务和支持：MPLUG用于客户服务系统-DocOwl 1.5分析用户上传的文档，自动提取关键信息，提供更快的服务响应。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Sunoify – AI音乐创作平台，支持文字、图片、表情符号等生成个性化的音乐

Sunoify – AI音乐创作平台，支持文字、图片、表情符号等生成个性化的音乐

AI工具 # # AI

8个月前

0250

腾讯混元文生视频 – 腾讯推出的AI视频生成模型

腾讯混元文生视频 – 腾讯推出的AI视频生成模型

AI工具 # # AI

6个月前

140

LongReward – 清华、中科院、智谱AI联合推出提升长文本大语言模型性能的方法

LongReward – 清华、中科院、智谱AI联合推出提升长文本大语言模型性能的方法

AI工具 # # AI

8个月前

0310

Mini-Monkey – 华科联合华南理工推出的多模态AI模型

Mini-Monkey – 华科联合华南理工推出的多模态AI模型

AI项目框架 # # AI

8个月前

080

暂无评论

暂无评论...