SAM 2 – Meta推出的AI对象分割模型

SAM 2是什么

SAM 2（Segment Anything Model 2）是Meta推出的AI对象分割模型，专注于实时图像和视频对象分割。具备零样本泛化能力，能准确分割未知对象，并通过统一架构同时处理图像和视频。SAM 2的设计支持交互式提示，允许用户通过点击或框选指导分割过程。SAM 2模型已开源，推动了AI在视频编辑、自动驾驶、医学成像等领域的应用发展。

SAM 2的主要功能

集成处理能力：SAM 2能同时处理静态图像和动态视频的分割任务，提高了应用的灵活性和效率。
高效实时处理：SAM 2具备高效的实时处理能力，每秒能够分析多达44帧的图像，满足了对快速反馈有高要求的应用场景，例如视频编辑和增强现实技术。
适应性强：SAM 2具有出色的适应性，能够识别和分割在训练阶段未曾出现过的新物体。
用户交互改进：当你使用SAM 2并且告诉它哪里做得好，哪里做得不好时，它可以学习你的反馈，然后变得更好。
复杂场景解析：在面对复杂或模糊不清的场景时，SAM 2能提供多个分割选项，智能地解析并区分重叠或部分遮挡的对象。

SAM 2的技术原理

统一模型架构：SAM 2 将图像和视频分割功能集成在一个模型中，基于提示的界面，通过点、边界框或掩码指定感兴趣的对象。
高级处理机制：SAM 2 包括管理视频分割中常见难题的机制，如物体遮挡和重现。使用复杂记忆机制来跟踪各帧中的物体，确保连续性。
模型架构：包括图像和视频编码器、提示编码器、记忆机制（记忆编码器、记忆库和记忆注意力模块）以及掩码解码器。这些组件共同工作，提取特征、处理用户提示、存储过去帧的信息，并生成最终的分割掩码。
记忆机制和遮挡处理：记忆机制允许SAM 2 处理时间依赖性和遮挡问题。当物体移动或被遮挡时，模型可以依靠记忆库来预测对象的位置和外观。
多掩码模糊解决：在存在多个可能的分割对象时，SAM 2 能够生成多个掩码预测，提高复杂场景的准确度。
SA-V 数据集：为了训练SAM 2，开发了SA-V数据集，它是目前最大、最多样化的视频分割数据集之一，包含51,000多部视频和600,000多个掩码注释，提供了前所未有的多样性和复杂性。
提示视觉分割任务：SAM 2 被设计为可以接受视频中任何一帧的输入提示来定义要预测的时空掩码（masklet），并能够根据这些提示立即预测当前帧的遮罩，并在时间上传播以生成目标对象在所有视频帧中的masklet。