分类导航

云服务器|WEB服务器|FTP服务器|邮件服务器|虚拟主机|服务器安全|DNS服务器|服务器知识|Nginx|IIS|Tomcat|

服务器之家 - 服务器技术 - 服务器安全 - 安全研究发现：AI安全护栏形同虚设

安全研究发现：AI安全护栏形同虚设

2023-10-27 04:09未知服务器之家服务器安全

事实证明，为了防止OpenAI的GPT-3.5 Turbo等大语言模型（LLM）生成有害的内容而创建的“护栏”机制非常脆弱，形同虚设。一群来自美国普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的计算机科学家在近期对这些大语言

事实证明，为了防止OpenAI的GPT-3.5 Turbo等大语言模型（LLM）生成有害的内容而创建的“护栏”机制非常脆弱，形同虚设。

一群来自美国普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的计算机科学家在近期对这些大语言模型进行了测试，观察所谓的安全措施是否能抵御企图绕过它们的活动。

他们发现，适度的微调（即进行额外的训练以便对模型进行定制）可以挫败人工智能的安全机制，这些机制原本旨在防止聊天机器人给出自杀策略、有害食谱或其他各种有问题的内容。

比如说，因此有人可以通过API注册使用GPT-3.5 Turbo或云端的其他大语言模型，对其进行一番微调，以避开大语言模型开发商设置的各种保护机制，并将其用于恶作剧和破坏。

你还可以选择像Meta的Llama 2（可以在本地运行的模型）这样的大语言模型，对其进行微调，使其偏离轨道，这种可能性始终存在。通过API进行微调似乎更危险；可想而知，云托管模型周围有更多的护栏，但借助微调就有可能绕过护栏。

这些研究人员包括Xiangyu Qi、Yi Zeng、Tinghao Xie、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal和Peter Henderson，他们在最近的一篇预印本论文中描述了研究工作，论文题目为《微调对齐的语言模型会危害安全，即使用户没有这个意图》（参阅https://llm-tuning-safety.github.io/）。

作者们在论文中解释道：“我们的红队研究发现，只需使用少数对抗性设计的训练示例进行微调，就可以危害大语言模型的安全对齐。”

Meta建议对公开可用的模型Llama 2进行了微调。

OpenAI虽然不对外提供模型权重，但通过其平台网页为其商业模型提供了微调选项。

研究人员补充道，他们的研究还表明，即使没有恶意，护栏也可以被推倒，只需使用良性数据集对模型进行微调就足以破坏安全控制措施。

安全研究发现：AI安全护栏形同虚设图1. 该屏幕截图显示了微调以绕过人工智能安全的示例

论文作者认为，最近美国针对人工智能模型提议的立法框架侧重于部署前的模型许可和测试。他们认为，这种体制并未考虑到模型定制和微调。

此外，他们表示，基于商业API的模型似乎与开放的模型一样有可能造成危害；在制定法律规定和分配责任时应该考虑到这一点。

他们在论文中说：“如果客户定制像ChatGPT3.5这样的模型，就有必要确保他们致力于安全机制，而不是仅仅依赖模型的原始安全性。”

这篇论文与卡内基•梅隆大学、人工智能安全中心和博世人工智能中心的计算机科学家在7月份发布的类似发现结果相一致。

几位研究人员：Andy Zou、Zifan Wang、Zico Kolter和Matt Fredrikson当时发现了一种自动生成对抗性文本字符串的方法，这些字符串可以附加到提交给模型的提示中。这些字符串破坏了人工智能的安全措施。

卡内基•梅隆大学计算机科学副教授Kolter和卡内基•梅隆大学博士生Zou在接受IT外媒的采访时对来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的同行们所做的研究工作表示了赞赏。

Kolter认为：“过去有一种观念认为，聊天机器人的商业API模型在某种程度上天生比开源模型来得安全。”

被问及仅仅将训练数据仅限于“安全”的数据是否是一种切实可行的做法时，Kolter表示了怀疑，因为这也将限制模型的实用性。

他说：“如果你只使用安全数据训练模型，你就再也不能把它用作内容审核过滤器，因为它不知道如何量化有害内容。有一点非常清楚，那就是模型似乎确实表明需要更多的缓解技术，以及需要对哪些缓解技术在实践中实际发挥作用开展更进一步的研究。”

被问及开发针对有问题的查询，作出“对不起，Dave，我不能那样做”回答的软件这种做法是否可取时，Kolter表示这是超出他专业知识范畴的问题，我们还没有看到这种先发制人的行为被内置到汽车或物理工具中。不过他承认，就大语言模型而言，由于这些人工智能模型可以大规模运行，安全不容忽视。”

Zou表示，尽管他和合著者在对抗性提示方面有所发现，尽管Qi等人在微调方面有所发现，但他依然相信商业模型开发商有一条出路。

他说：“这些部署在网上的大语言模型只是在一年半载之前才可供使用。所以安全训练和护栏这些话题仍然是活跃的研究领域。可能有很多方法可以规避人们所做的安全训练。但如果更多的人思考这些问题，我认为还是有望得到解决。”

OpenAI对此并没有回应置评请求。

文章翻译自：https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/?td=rt-3a如若转载，请注明原文地址

延伸 · 阅读

精彩推荐

服务器安全

2023年第十八届中国企业年终评选榜单揭晓：启明星辰超级SIM安全

2023年11月，由51CTO主办，联合WOT大会往届联席主席、CTO组织共同举办的《中国企业 “IT印象◆创新驰而不息，数字时代进行时”年终评选》活动全面启动。...

未知1462024-01-06
服务器安全

黑客滥用 Google AMP 进行规避性网络钓鱼攻击

近日，有安全研究人员警告称，有越来越多的网络钓鱼活动利用谷歌加速移动页面(AMP)绕过电子邮件安全措施，进入企业员工的收件箱。谷歌AMP是由谷歌和...

未知1232023-08-08
服务器安全

如何利用Kurukshetra以交互式的方式学习如何进行安全编码

关于Kurukshetra Kurukshetra是一款功能强大的开源框架，该框架的主要目标就是通过交互式的问题解决方式来告诉广大研究人员或开发人员如何能够更好地实现...

未知1482023-09-16
服务器安全

如何制定有效的数据安全治理策略

有效的数据安全治理策略应包括自定义网络安全策略、数据的完整可见性、数据加密方法等功能。基于上下文的数据泄露防护基于上下文的数据泄露防护...

未知1352023-08-23
服务器安全

将勒索软件恢复成本减半的简单方法

无论以哪种方式查看数据，使用备份从勒索软件攻击中恢复都比支付赎金便宜得多。根据最近的一项研究，使用备份的恢复成本中位数是支付赎金的成本的...

未知1902023-08-27
服务器安全

企业如何积极主动地应对勒索软件攻击

尽管打击网络犯罪的政府承诺和公开声明是基础性的，但它们往往缺乏应对复杂的网络威胁所需的直接和切实的影响。一个恰当的例子是，美国最近与其他...

未知832023-12-28
服务器安全

浅谈物联网设备安全

1绪论当今正是“物联网”（Internet of Things, IoT）技术的黄金时代：嵌入式处理器的性能和片上资源的丰富度得到了长足的提升，嵌入式设备可实现的功能...

未知2082023-05-12
服务器安全

宝塔防火墙各类黑白名单的讲解

宝塔防火墙包括nginx和apache两种，均为付费插件，宝塔面板专业版可免费使用，本文主要对宝塔防火墙各类黑白名单的知识简单讲解，有需要的朋友可以参...

宝塔官方论坛16372020-10-15