近日,NIST发布了可能是迄今最详细的针对人工智能系统的网络攻击分类指南——对抗性机器学习:攻击和缓解的分类和术语”(NIST.AI.100-2)),并指出:
- 当人工智能系统接触到不可信的数据时,可能会出现故障,而攻击者正在利用这个问题。
- 新指南记录了这些攻击的类型以及缓解方法。
- 目前尚不存在万无一失的方法来保护人工智能免受误导,人工智能开发人员和用户应该警惕任何提出其他说法的人
人工智能网络攻击分为四大类
NIST的指南将人工智能网络攻击分为四大类型:逃避、投毒、隐私和滥用攻击。指南还根据攻击者的目标、能力和知识等多种标准将每一类攻击类型细分为多个自类别:
- 逃避攻击。发生在人工智能系统部署后,通过对抗性输入改变系统的响应方式。例如,在停车标志上添加标记,使自动驾驶车辆将其误解为限速标志,或者创建令人困惑的车道标记,使车辆偏离道路发生车祸(编者:有些非人为或非故意的视觉信息也可能产生类似的效果)。
- 中毒攻击。在训练阶段引入损坏的数据。一个例子是将大量不恰当语言的实例放入对话记录中,误导聊天机器人以为是常用语并在用户交互中使用。
- 隐私攻击。隐私攻击发生在部署期间,通过提出绕过现有护栏的问题来收集有关系统或其训练数据的敏感信息。对手可以向聊天机器人提出许多貌似合理的问题,然后使用答案对模型进行逆向工程,以找到其弱点,或猜测其来源。在这些在线资源中添加不需要的示例可能会使人工智能行为不当,并且在事后让人工智能忘记“有毒”示例可能很困难。
- 滥用攻击。将不正确的信息插入到源中,例如网页或在线文档,然后让人工智能吸收这些信息。与前面提到的中毒攻击不同,滥用攻击通过篡改或污染合法来源向人工智能提供不正确的信息,以重新调整人工智能系统的预期用途。
东北大学教授、合著者阿丽娜·奥普雷亚(Alina Oprea)表示:“大多数此类攻击都相当容易发起,并且不需要对人工智能系统有太多了解,所需的对抗能力也不高。例如,可以通过控制几十个训练样本来发起投毒攻击,而这些样本只占整个训练集的很小一部分。”