服务器之家:专注于服务器技术及软件下载分享
分类导航

云服务器|WEB服务器|FTP服务器|邮件服务器|虚拟主机|服务器安全|DNS服务器|服务器知识|Nginx|IIS|Tomcat|

服务器之家 - 服务器技术 - 服务器安全 - 集体暴雷!自动化攻击可一分钟内越狱主流大语言模型

集体暴雷!自动化攻击可一分钟内越狱主流大语言模型

2023-12-17 04:02未知服务器之家 服务器安全

大语言模型应用面临的两大安全威胁是训练数据泄漏和模型滥用(被应用于网络犯罪、信息操弄、制作危险品等违法活动)。 本周内,这两大安全威胁相继“暴雷”。 本周一,GoUpSec曾报道研究人员成功利用新的数据提取攻击方法

大语言模型应用面临的两大安全威胁是训练数据泄漏和模型滥用(被应用于网络犯罪、信息操弄、制作危险品等违法活动)。

集体暴雷!自动化攻击可一分钟内越狱主流大语言模型

本周内,这两大安全威胁相继“暴雷”。

本周一,GoUpSec曾报道研究人员成功利用新的数据提取攻击方法从当今主流的大语言模型(包括开源和封闭,对齐和未对齐模型)中大规模提取训练数据。

本周四,Robust Intelligence和耶鲁大学人工智能安全研究人员公布了一种机器学习技术,可以自动化方式,一分钟内越狱包括GPT-4在内的主流大型语言模型(无论模型是否开源,是否对齐)。

没有大语言模型能够幸免

“这种(自动越狱)攻击方法被称为修剪攻击树(TAP),可诱导GPT-4和Llama-2等复杂模型对用户的查询回复数百个包含有害、违规内容或不安全响应(例如:“如何在短短几分钟内制造出一枚炸弹”。各主流模型的攻击测试统计结果如下(GPT4的提示越狱成功率高达90%):

集体暴雷!自动化攻击可一分钟内越狱主流大语言模型

测试结果表明,这个越狱漏洞在大语言模型技术中普遍存在,且没有明显的修复方法。

自动对抗性机器学习攻击技术

目前,针对基于大语言模型的人工智能系统有多种攻击策略,例如:

提示注入攻击,即使用精心设计的提示诱导模型“吐出”违反其安全规则的答案。

人工智能模型也可能被设置后门(在触发时生成不正确的输出),其敏感训练数据会被提取或中毒。模型可能会与对抗性样本“混淆”,即触发意外(但可预测)输出的输入。

Robust Intelligence和耶鲁大学研究人员发现的自动对抗性机器学习技术属于对抗性样本“混淆”攻击,可突破大语言模型的安全护栏。

用魔法打败魔法

研究人员解释说:“(该方法)利用采用先进的语言模型来增强人工智能网络攻击,该攻击模型能不断完善有害指令,使攻击随着时间的推移变得更加有效,最终导致目标模型破防。”

“该流程涉及初始提示的迭代细化:在每一轮查询中,攻击模型都会对初始攻击进行改进。该模型使用前几轮的反馈来迭代出新的攻击查询。每种改进的方法都会经过一系列检查,以确保其符合攻击者的目标,然后针对目标系统进行评估。如果攻击成功,则该流程结束。如果没有,它会迭代生成新的策略,直到成功为止。”

这种针对大语言模型的越狱方法是自动化的,可以用于开源和闭源模型,并且能通过最小化查询数量进行优化,以尽可能隐蔽。

研究人员针对多种主流大语言模型(包括GPT、GPT4-Turbo和PaLM-2)测试了该技术,攻击模型只用少量查询就成功为80%的查询找到有效的越狱提示,平均查询数不到30次。

研究人员表示,该方法显著改进了此前使用可解释提示来越狱黑盒大语言模型的自动化方法。”

大语言模型的安全竞赛

人工智能军备竞赛已经进入白热化阶段,科技巨头们每隔几个月就会推出新的专业大语言模型(例如Twitter和Google近日先后发布的Grok和Gemini)争夺人工智能市场的领导地位。

与此同时,大语言模型的“黑盒属性”和“野蛮生长”导致其安全风险骤增,生成式人工智能技术已经快速渗透到各种产品、服务和技术中,业务用例不断增长,相关内容安全和(针对AI和利用AI)网络安全攻击事件势必将呈现爆发式增长。

网络安全业界对大语言模型漏洞研究的“安全竞赛”也已紧锣密鼓地展开。例如,谷歌成立了专门针对人工智能的红队,并扩大了其漏洞赏金计划以覆盖与人工智能相关的威胁。微软还邀请漏洞猎人来探究在其产品线中集成Copilot的各种安全风险。

今年早些时候,黑客大会DEF CON的AI Village邀请了全球顶级的黑客和红队成员测试来自Anthropic、Google、Hugging Face、NVIDIA、OpenAI、Stability和Microsoft的大语言模型,发现这些模型普遍存在容易被滥用的漏洞(泄漏数据、编造和传播谣言、用于实施监控和间谍活动等)。


延伸 · 阅读

精彩推荐
  • 服务器安全勒索软件知识:什么是 CryptoLocker?

    勒索软件知识:什么是 CryptoLocker?

    定义 CryptoLocker 是一种 勒索软件 ,通过加密其内容来限制对受感染计算机的访问。一旦被感染,受害者需要支付“赎金”来解密和恢复他们的文件。 主要...

    未知2022023-09-11
  • 服务器安全了解大数据安全问题的5种类型

    了解大数据安全问题的5种类型

    公司需要意识到大 数据安全 问题,以避免隐私风险,并最大限度地利用该技术。 在物联网时代,数据已成为公司的重要资产。公司使用 大数据 等现代技...

    物联之家网5212020-11-16
  • 服务器安全报告:47%的恶意攻击来自机器人

    报告:47%的恶意攻击来自机器人

    近期有报告指出,2022年,近一半的互联网流量来自机器人程序,比前一年增长了5.1%。人流量占比降至8年来的最低水平。 恶意机器人流量能够高速滥用、误...

    未知1582023-05-20
  • 服务器安全云锁“服务器和 Web 服务重启”功能操作说明

    云锁“服务器和 Web 服务重启”功能操作说明

    云锁 是通过PC端连接 服务器 端进行管理的方式。为加强用户方便性和体验性,在PC端添加了重启服务器和Web服务的功能。用户登录云锁,通过首页服务器信...

    云锁官网8922020-06-05
  • 服务器安全2023年十月国外重大网络攻击回顾

    2023年十月国外重大网络攻击回顾

    2023 年 10 月,网络事件激增凸显了组织面临的持续且不断变化的威胁。 2023 年 10 月发生了从大规模数据泄露到网络战等一系列恶意活动。值得注意的事件包...

    未知1922023-11-21
  • 服务器安全2023年十佳免费网络威胁情报来源和工具

    2023年十佳免费网络威胁情报来源和工具

    鉴于不断变化的形势,跟上网络安全的发展已成为一项挑战。这包括新发现的漏洞、新的攻击方法以及新兴网络攻击者使用的策略、技术和程序 (TTP)。因此...

    未知1292023-12-07
  • 服务器安全阿里云建站服务器安全吗

    阿里云建站服务器安全吗

    阿里云 建站 服务器安全 吗 随着互联网的迅速发展,越来越多的企业和个人开始在网络上建立自己的网站。而选择一个安全可靠的建站服务器平台成为他们...

    未知1682023-08-14
  • 服务器安全什么是数据库防火墙

    什么是数据库防火墙

    一、概述 数据库防火墙仿佛是近几年来出现的一款新的安全设备,但事实上历史已经很长。2010年,Oracle公司在收购了Secerno公司,在2011年2月份正式发布了...

    天下数据7442019-05-29