Skywork R1V – 昆仑万维开源的多模态思维链推理模型

Skywork R1V是什么

Skywork R1V是昆仑万维开源的首款工业界多模态思维链推理模型，具备强大的视觉链式推理能力。Skywork R1V能对视觉输入进行多步逻辑推理，解决复杂的视觉任务，例如视觉逻辑推理、视觉数学问题、科学现象分析及医学影像诊断等。模型在多个权威基准测试中表现出色，如在MATH-500和AIME测试中分别取得94.0和72.0的高分，显著领先于其他主流模型。Skywork R1V的开源推动多模态推理模型的发展，助力学术研究与产业应用探索。

Skywork R1V的主要功能

视觉链式推理：对视觉输入（如图像或视频）进行多步逻辑推理，逐步分析推导出复杂问题的答案。
数学与科学问题求解：识别和解析图像中的数学问题或科学现象，结合推理能力给出逐步解答。
跨模态理解：将视觉信息与文本信息深度融合，实现更丰富的语义理解。
复杂视觉任务处理：处理复杂的视觉任务，如医学影像诊断推理、艺术作品分析等。

Skywork R1V的技术原理

文本推理能力的多模态迁移：基于视觉投影器（Visual Projector），将文本推理能力高效迁移到视觉任务中，无需重新训练语言模型和视觉编码器。保留模型在文本推理任务中的强大能力，同时处理视觉输入。
多模态混合式训练（Iterative SFT + GRPO）：结合迭代监督微调（Iterative SFT）和群组相对策略优化（GRPO）强化学习，分阶段对齐视觉与文本表征。用高质量数据和高难度数据的组合，反复迭代训练，提升模型在跨模态任务中的表现，在视觉推理基准测试中达到或超越现有领先模型。
自适应长度思维链蒸馏：引入基于视觉-文本复杂度的自适应推理链长度控制机制，动态优化模型推理过程。结合多阶段自蒸馏策略，避免模型“过度思考”，提升推理效率和质量。
三阶段训练方法：
- 初始对齐：用轻量级视觉适配器（MLP）连接视觉编码器和语言模型，在常规多模态数据上训练，初步对齐视觉与语言表征。
- 推理能力迁移：将训练好的适配器与强推理语言模型连接，形成视觉推理模型，让模型具备初始视觉推理能力。
- 精准对齐：基于混合优化框架（Iterative SFT + GRPO）进一步精准对齐视觉和语言模态，提升模型的多模态推理能力。

Skywork R1V的性能表现

逻辑推理能力：
- 在MATH-500基准测试中，Skywork R1V取得了94.0的高分，显著高于其他同规模或更大规模的开源模型。
- 在AIME 2024基准测试中，Skywork R1V达到了72.0%的通过率。
- 在GPQA（General Physics Question Answering）基准测试中，Skywork R1V的通过率达到61.6%。
视觉理解能力：
- 在MathVista（视觉数学推理）基准测试中，Skywork R1V取得67.5分。
- 在MMMU（Multimodal Medical Understanding）基准测试中，Skywork R1V达到69.0分。