信息存储系统教育部重点实验室

硕士生马海舰的论文被会议NIPS 2025录用


在多模态大语言模型(MLLMs)广泛应用于图像理解、视觉问答等领域的当下,其安全漏洞问题愈发突出。现有对抗攻击方法多针对特定图像 - 提示对优化,存在泛化能力弱、迁移性差等缺陷,难以应对真实场景中多样化的输入组合。近日,一项受国家自然科学基金(No.62476107)支持的创新性研究,提出基于分布逼近理论的跨图像 / 提示对抗攻击方法,成功实现对主流多模态大模型的高效通用攻击,为大模型安全防护体系建设提供了重要参考。

该研究成果以 “Fit the Distribution: Cross-Image/Prompt Adversarial Attacks on Multimodal Large Language Models” 为题,已被国际顶级学术会议 NeurIPS 2025(CCF A 类)接收。研究团队通过全新视角破解传统攻击瓶颈,提出将图像与提示的输入分布建模为高斯分布,生成单一通用的对抗扰动,实现对未见图像和提示的有效迁移攻击。

传统对抗攻击方法往往过度拟合特定训练样本,导致换用新的图像或提示时攻击失效,且需为每个输入组合单独优化扰动,资源消耗巨大。而该研究提出的分布驱动攻击框架,核心创新在于三点:一是采用拉普拉斯逼近技术,将复杂的图像和提示输入分布建模为可计算的高斯分布,精准估计均值和协方差参数;二是通过蒙特卡洛采样机制,从建模分布中抽取多样化图像 - 提示对,优化得到与分布拟合的输入无关扰动;三是针对图像无关和图像相关两类提示分别建模,通过高斯混合模型融合为统一分布,覆盖全场景提示类型。

严苛的实验验证显示,该方法表现卓越:在 MS-COCO 和 DALLE-3 两大数据集上,针对 LLaVA1.5、BLIP-2、MiniGPT-4 等主流模型,跨图像攻击成功率最高达 71.9%,跨提示攻击成功率最高达 97.9%,跨图像 - 提示联合攻击成功率最高达 57.9%,均远超现有 PGD、CroPA 等基准方法;即使面对随机化、JPEG 压缩等防御机制,仍保持优异的攻击稳定性;针对不同长度和复杂度的目标文本,以及跨数据集、跨模型场景,均展现出强大的适配能力,生成的扰动具有极强的通用性。

1 整体架构图

2 攻击效果

注:本文为原创,如转载请注明出处。

分享文章

Share

最新发布

Latest
Baidu
map