LOKI – 中山大学联合上海AI Lab推出的合成数据检测基准

LOKI是什么

LOKI是由中山大学和上海AI Lab联合提出的合成数据检测基准，旨在全面评估大型多模态模型（LMMs）在识别视频、图像、3D、文本和音频等多种模态合成数据的能力。包含18,000多个问题，覆盖26个子类别，采用多层次标注，支持细粒度异常注释。LOKI考验模型的感知和推理能力，通过自然语言解释增强了模型的可解释性。通过评估22个开源和6个闭源的LMMs，LOKI揭示了这些模型在合成数据检测任务中的潜力和局限性。

LOKI的主要功能

多模态数据检测：评估LMMs在识别合成的视频、图像、3D模型、文本和音频数据方面的能力。
细粒度异常注释：提供详细的异常注释，支持对合成数据的深入分析和理解。
多层次标注：包括基本的“合成或真实”标签，适用于基础问题设置，更复杂的异常细节选择和解释任务。
全面评估框架：支持多种数据格式输入，如视频、图像、文本、音频和点云，统一了超过25种主流LMMs的API。
性能比较：支持对不同的LMMs进行比较，包括开源和闭源模型，专家合成检测模型。
可解释性测试：通过要求模型提供自然语言解释，测试LMMs在合成数据检测任务中的可解释性。
数据多样性：收集了多种类型的合成数据，包括专业领域的数据，如卫星图像和医学图像，环境音和音乐等音频数据。
问题难度分级：根据人类评估指标对问题进行难度分级，测试LMMs在不同难度水平上的表现。
模型偏差分析：通过计算模型的偏差指数，分析模型在合成数据检测任务中的偏差和倾向性。
促进AI发展：推动更强大、更可解释的合成数据检测方法的发展，应对AI合成技术带来的挑战。

LOKI的技术原理

数据收集与合成：LOKI收集了多种模态的数据，包括视频、图像、3D模型、文本和音频，这些数据部分来自公开数据集，部分通过最新的合成模型生成。
多模态评估框架：LOKI提出了一个全面的多模态评估框架，支持多种数据格式的输入，统一了多种主流的LMMs的API，在统一的标准下评估不同模型的性能。
模型评估与比较：LOKI基准测试包括对多个开源和闭源的LMMs进行评估。通过比较这些模型在合成数据检测任务上的表现，可以分析它们的性能和局限性。
自然语言解释：LOKI要求模型提供自然语言解释，增强模型的可解释性。测试模型的检测能力，评估模型解释其判断的理由。

LOKI的项目地址

项目官网：opendatalab.github.io/LOKI
Github仓库：https://github.com/opendatalab/LOKI
arXiv技术论文：https://arxiv.org/pdf/2410.09732

LOKI的应用场景

人工智能安全性评估：LOKI可以用来评估和提高AI系统在处理合成数据时的安全性和鲁棒性，确保AI系统在面对潜在的合成数据攻击时能准确识别并做出正确响应。
内容审核：在社交媒体、新闻网站和其他内容平台，LOKI可以帮助检测和过滤掉由AI生成的假新闻、深度伪造（deepfakes）视频或音频，保护用户免受误导。
数据集验证：在机器学习模型训练过程中，LOKI可以用于验证数据集的质量和真实性，确保训练数据中不包含过多的合成数据，提高模型的泛化能力。
法律和合规性：在法律领域，LOKI可以帮助识别和处理与合成数据相关的版权、隐私和合规性问题，例如，检测和防止未经授权的内容生成和分发。
媒体和娱乐：在电影、游戏和虚拟现实制作中，LOKI可以用于评估和改进合成媒体内容的质量，确保生成的内容既真实又符合创作者的意图。