Infinity-MM – 智源推出的千万级多模态指令数据集

Infinity-MM是什么

Infinity-MM是智源研究院推出的千万级多模态指令数据集，包含4300万条样本，数据量达10TB。数据集经过质量过滤和去重，确保高质量和多样性，能提升开源视觉-语言模型（VLMs）的性能。智源推出基于开源VLMs的合成数据生成方法，进一步扩充数据集规模和多样性。基于Infinity-MM，智源成功训练20亿参数的多模态模型Aquila-VL-2B，在同规模模型中取得最先进的性能。

Infinity-MM的主要功能

提升开源模型性能：Infinity-MM基于提供大规模和高质量的指令数据，提高开源视觉-语言模型（VLMs）的性能，接近或达到闭源模型的水平。
数据集构建：包含4300万条经过严格筛选和去重的多模态样本，覆盖视觉问答、文字识别、文档分析和数学推理等多种类型。
合成数据生成：基于开源VLMs和详细的图像注释，生成与图像内容紧密相关的多样化指令，扩充数据集规模和提升数据多样性。
模型训练与评估：Infinity-MM数据集用在训练一个20亿参数的VLM，Aquila-VL-2B，模型在多个基准测试中显示出卓越的性能。
推动多模态研究：基于提供大规模的高质量数据集，促进多模态AI领域的研究和应用发展。

Infinity-MM的技术原理

数据收集与预处理：Infinity-MM的数据来源于多个公开数据集，经过去重和质量过滤，确保数据集的高质量和多样性。
合成数据生成方法：
- 图像和指令标记系统：用开源的识别模型（如RAM++）对图片进行自动打标，提取关键信息，形成图像的语义基础。
- 指令标签体系：设计一个三级指令标签体系，涵盖不同层次和种类的指令。
- 图片与指令标签对应关系建立：统计图片标签与指令标签之间的对应关系，快速检索匹配的指令任务标签。
问题生成与过滤：指示模型根据图片和指令类型生成具体问题，进行合理性判断。
答案生成与过滤：生成问题后，进一步生成相应的指令回答，进行严格过滤，确保与图片内容或任务的匹配性。
分阶段训练策略：Aquila-VL-2B模型基于分阶段训练方法，逐步提升模型对视觉信息的理解和处理能力。
多模态架构：Aquila-VL-2B模型基于LLaVA-OneVision架构，结合文本塔（Qwen2.5-1.5B-instruct）和视觉塔（Siglip400m）。
训练效率提升：智源自研的FlagScale框架对模型训练进行适配，提高训练效率，是原版基于DeepSpeed训练代码的1.7倍。

Infinity-MM的项目地址

HuggingFace模型库：https://huggingface.co/datasets/BAAI/Infinity-MM
arXiv技术论文：https://arxiv.org/pdf/2410.18558

Infinity-MM的应用场景

视觉问答（Visual Question Answering, VQA）：基于图像和相关问题的配对数据，训练模型理解和回答关于图像内容的问题。
图像字幕生成（Image Captioning）：为图片生成描述性的文本，在社交媒体、内容管理和图像检索等领域有广泛应用。
文档理解和分析（Document Understanding and Analysis）：提取和理解文档中的视觉和文本信息，适用于自动化办公、智能文档处理和信息提取。
数学和逻辑推理（Mathematical and Logical Reasoning）：训练模型解决数学问题和逻辑推理任务，对于教育技术、自动化测试和智能辅导系统非常有用。
多模态交互系统（Multimodal Interaction Systems）：结合视觉和语言信息，提升人机交互的自然性和效率，适用于智能助手和客户服务机器人。