研究承担单位
清华大学
研究目标
本项目的研究目标是针对深度学习对抗攻防中存在的问题,深度学习的对抗攻击、鲁棒防御和平台实证等方面进行研究,探索深度学习对抗攻防机理,研究相关的基础理论和关键技术,建立深度学习对抗攻防理论框架和算法平台,为人工智能模型的安全性和可信赖应用提供理论基础和技术储备。具体目标包括:
(1)深度学习对抗攻击算法模型:研究在信息受限、计算复杂度受控条件下的高效对抗样本生成问题,重点建立低失真率和高迁移性的对抗样本生成理论框架,突破信息匮乏条件下的白盒/黑盒、有目标/无目标对抗攻击技术,为深度学习模型的研究提供新的对抗安全测试基准。
(2)建立深度学习模型加固的协同防御理论框架:研究加固深度学习模型的训练新范式,重点突破数据驱动和知识驱动融合的鲁棒深度学习算法、以及对抗样本检测技术,为提升人工智能的鲁棒性提供理论保证和关键技术支持。
(3)研制深度学习对抗攻防的算法平台:研发支持多种深度学习对抗攻防算法的机器学习平台,提供标准程序库以降低已有模型的使用门槛和新模型的开发成本。以高效支持图像、视频等不同数据和任务类型的攻防验证。
重点任务
本项目围绕机器学习模型的对抗鲁棒性进行了深入研究,提出多个创新性的方法,研发深度学习对抗安全算法平台,成功在CVPR2021和ICML2021上组织了对抗机器学习分论坛,取得较大业内影响。具体如下:
1.突破深度学习对抗攻击和防御关键技术
深度学习是推动此次人工智能技术发展的核心力量之一,成为了学术界和产业界广泛关注的热点,但是其存在的安全风险往往被人忽视。研究表明,攻击者可以通过对输入增加人不易觉察的微小扰动欺骗深度学习算法,造成AI系统的失准。本项目针对提升机器学习模型的对抗鲁棒性等问题,从深度学习的脆弱性机理出发,提升深度学习模型对恶意攻击的防御能力。首先,针对既有对抗防御策略对未知攻击方法防御能力不足的问题,提出了对抗式分布训练(ADT)的鲁棒训练新算法,提升了对不同组合攻击策略的防御能力。另外,针对目前对抗训练的计算复杂度过高的问题,提出了基于超球嵌入的轻量级对抗训练算法,显著提升了对抗训练的算法性能。最后,本项目进一步研究对抗样本的生成机理,提出了基于梯度泄露的对抗样本生成假设,并通过抑制梯度泄露提升了模型的鲁棒性。总体来说,本项目围绕深度学习的对抗安全理论与关键技术,开展了一系列创新性的工作,发表顶级期刊和会议论文15篇,其中包括NeurIPS论文4篇,CVPR 3篇,ICCV论文2篇以及ICLR论文2篇。
2.研发深度学习对抗鲁棒算法平台,建立对抗安全新基准
课题组针对目前对抗攻防算法评测中存在的问题,即很多防御方法在提出时通常可以抵御当时的各种攻击方法,但是随后就会被新提出的攻击方法攻破;很多防御模型存在混淆梯度的问题,会被适应性的攻击方法攻破;很多攻防模型没有进行全面的评估,例如防御模型通常会选择某一个固定大小的攻击强度进行测试等。项目组针对这一问题,研发对抗安全算法平台,支持目前主流算法的攻防评测,并已经对学术界开源(https://github.com/thu-ml/ares)。
该平台对已有的主流对抗攻防方法与模型进行了全面系统的评测:涵盖了选取了16个典型的(防御)模型(包括8个CIFAR-10上的模型和8个ImageNet上的模型)和15种典型的攻击方法,覆盖了白盒、得分、决策、迁移等威胁模型,基于无穷范数距离和二范数距离,在统一的标准下定量地评测了这些模型与方法的性能。通过对算法的全面比较,我们发现,防御方法和攻击方法的强度在不同的扰动大小和攻击方法迭代次数下可能会有较大的差别,因此之前的工作中常见的使用少量的选取特定的一组参数的攻击方法来说明防御方法的有效性的做法并不合理;对抗训练仍然是目前最好的防御方法,且具有泛化性,即针对某种威胁模型进行对抗训练的方法在其它威胁模型下也有较好的鲁棒性;在基于查询的黑盒威胁模型下,基于随机的防御方法往往有较好的效果,得到了很多和之前研究不同的新发现。
3.组织对抗机器学习专题研讨
项目组联合了UC Berkeley,UIUC等成功申办了ICML2021和CVPR2021对抗安全领域的workshop,扩大了领域学术影响力。为了推动人工智能新理论和新方法的研究,培养更多的人工智能人才,项目组联合阿里巴巴推出安全AI挑战者计划,旨在通过打造全球顶尖AI赛事实现以赛育人的目标。安全AI挑战者计划从2019年8月开始启动,至今已举办到了第五期,涵盖人脸识别对抗竞赛、ImageNet图像分类对抗攻击竞赛,全球首个辱骂文本对抗攻击竞赛、全球首个针对目标检测算法的对抗攻击竞赛等多个比赛项目,均是围绕行业与产业界面临的重点和难点议题进行赛题设置。目前,该赛事已吸引来自全球超过200所高校、100多家企业,超6000支队伍7000多人参加,收到数千万条恶意样本,沉淀40多个具有前沿创新性的参赛源码和方案,激发高校学生在安全AI领域极大的创造力,也为实际业务问题的解决贡献力量,极大程度填补和缓解AI安全人才缺口。
成果展示
本项目发表论文列表如下:
序号 |
发表时间 |
作者 | 题目 | 收录期刊/会议 |
1 |
2021年5月1日 |
Tianyu Pang, Xiao Yang, Yinpeng Dong, Hang Su, Jun Zhu. |
Bag of Tricks for Adversarial Training |
ICLR2021 |
2 |
2021年6月1日 |
Zhijie Deng, Xiao Yang, Shizhen Xu, Hang Su, Jun Zhu. |
LiBRe: A Practical Bayesian Approach to Adversarial Detection |
CVPR2021 |
3 |
2021年6月1日 |
Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu. |
Unsupervised Part Segmentation through Disentangling Appearance and Shape |
CVPR2021 |
4 |
2020年12月1日 |
Yinpeng Dong, Zhijie Deng, Tianyu Pang, Jun Zhu, Hang Su |
Adversarial Distributional Training for Robust Deep Learning |
NeurIPS2020 |
5 |
2020年12月1日 |
Fan Bao, Chongxuan Li, Kun Xu, Hang Su, Jun Zhu, Bo Zhang |
Bi-level Score Matching for Learning Energy-based Latent Variable Models |
NeurIPS2020 |
6 |
2020年12月1日 |
Tianyu Pang, Xiao Yang, Yinpeng Dong, Kun Xu, Jun Zhu, Hang Su |
Boosting Adversarial Training with Hypersphere Embedding |
NeurIPS2020 |
7 |
2020年6月1日 |
Yinpeng Dong, Qi-An Fu, Xiao Yang, Tianyu Pang, Hang Su, Zihao Xiao, Jun Zhu |
Benchmarking Adversarial Robustness on Image Classification |
CVPR2020 |
8 |
2020年4月1日 |
Shiyu Huang, Hang Su, Jun Zhu, and Ting Chen |
SVQN: Sequential Variational Soft Q-Learning Networks |
ICLR2020 |
9 |
2020年2月1日 |
Wang, Yulong, Xiaolu Zhang, Xiaolin Hu, Bo Zhang, and Hang Su. |
Dynamic Network Pruning with Interpretable Layerwise Channel Selection. |
AAAI2020 |
10 |
2020年5月1日 |
Yulong Wang, Hang Su, Bo Zhang, Xiaolin Hu. |
Learning Reliable Visual Saliency for Model Explanations |
TMM |
11 |
2020年8月20日 |
Liang, Haoyu, Zhihao Ouyang, Yuyuan Zeng, Hang Su, Zihao He, Shu-Tao Xia, Jun Zhu, and Bo Zhang |
Training Interpretable Convolutional Neural Networks by Differentiating Class-specific Filters |
ECCV2020 |
12 |
2020年2月1日 |
Yulong Wang , Hang Su, Bo Zhang, and Xiaolin Hu |
Interpret Neural Networks by Extracting Critical Subnetworks |
IEEE Transactions on Image Processing (2020) |
13 |
2019年12月5日 |
Shuyu Cheng, Yinpeng Dong, Tianyu Pang, Hang Su, and Jun Zhu |
Improving Black-box Adversarial Attacks with a Transfer-based Prior |
NeurIPS2019 |
14 |
2021年6月1日 |
Xiao Yang, Yinpeng Dong, Tianyu Pang, Hang Su Jun Zhu, Yuefeng Chen, Hui Xue |
Towards Face Encryption by Generating Adversarial Identity Masks |
ICCV2021 |
15 |
2021年6月1日 |
Yinpeng Dong, Xiao Yang, Zhijie Deng, Tianyu Pang, Zihao Xiao, Hang Su, Jun Zhu |
Black-box Detection of Backdoor Attacks with Limited Information and Data |
ICCV2021 |
研发深度学习对抗攻防算法平台ARES (Adversarial Robustness Evaluation for Safety,CVPR2020),支持目前主流算法攻防模型,在CVPR2021上组织专题研讨和攻防竞赛,目前超过1000支代表队。
(https://github.com/thu-ml/ares)