TokenFD - 上海交大联合美团推出的细粒度图文对齐基础模型

TokenFD是什么

TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享,支持Token级图文交互,在处理包含密集文字的图像时表现突出。为了训练该模型,团队构建了业内首个Token级图文数据集TokenIT,包含2000万张图像和18亿高质量的Token-Mask对,数据量远超现有模型。

TokenFD的主要功能

  • 细粒度图文对齐:TokenFD实现了图像Token与语言Token在同一特征空间中的共享,支持Token级的图文交互。
  • 提升多模态任务性能:TokenFD能显著提升多模态大模型在文档理解任务中的表现。例如,在文本分割任务中,Zero-Shot性能提升了18.78%;在文本理解任务中,Zero-Shot性能提升了1.48%;在文本检索任务中,Zero-Shot性能提升了50.33%。
  • 基座适配与扩展:TokenFD可直接替换其他多模态大模型的基座,无需额外训练即可提升各项评估基准。基于TokenFD作为视觉基础模型,进一步推出了TokenVL,一种全新的多模态大模型图文对齐预训练范式。

TokenFD的技术原理

  • BPE分词与像素级掩码标注:TokenFD首创了BPE分词+像素级掩码标注技术。具体而言,将文本分割为BPE子词(如“un-”、“-able”),将每个子词(token)精确对应到图像中的局部区域。使模型能更好地理解图像中的文字信息,支持“图像即文字”的语义映射。
  • 数据集与模型训练:TokenFD依托自主研发的TokenIT数据集进行训练。数据集包含2000万张图像和18亿高质量的Token-Mask对,覆盖自然场景、文档、图表等多种文本图像类型。大规模的细粒度标注数据为模型提供了丰富的语义信息,在文档理解、文本分割等任务中表现出色。

TokenFD的项目地址

TokenFD的应用场景

  • 文档理解与处理:TokenFD可以更好地处理包含密集文字的文档图像,例如表格、公式和字符等复杂结构。
  • 图像安全审查:TokenFD可以用于图像安全审查,通过细粒度的图文对齐,能更准确地检测图像中的违规内容,例如包含不当文字或符号的图像。
  • 基于文字的图像检索:TokenFD突破了传统基于文字识别的图文检索方式,通过特征空间直接进行相似度匹配,支持任意文字输入进行图像内容查找。
  • 知识检索增强的大模型:TokenFD可以用于增强知识检索能力,通过细粒度的图文对齐,帮助大模型更好地理解和生成与图像相关的文本内容。
© 版权声明

相关文章

暂无评论

none
暂无评论...