36kr-科技 2024年07月24日
Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来,指令遵循能力强了更容易越狱
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 最新发布的开源大模型 Llama 3.1 405B,参数量超越 GPT-4o,成为目前最强大的开源模型,但同时也被发现存在安全漏洞,可以被轻松绕过安全防护,甚至能被引导说出危险言论。虽然 Llama 3.1 提升了能力,但安全问题依然存在,这也凸显了开源大模型发展中安全性的重要性。

💥 **安全漏洞:** Llama 3.1 405B 被发现存在安全漏洞,可以通过特定的指令和技巧绕过安全防护,例如使用“过去时态”或利用模型的“概率预测”机制进行引导,导致模型说出违反安全规则的内容。

🧠 **能力提升:** Llama 3.1 405B 在能力方面有所提升,例如在聊天、总结、信息提取等任务上表现优于同等规模的 GPT-4o mini+提示词。此外,Llama 3.1 405B 还支持模型合并,可以将多个模型组合成一个更大的模型,进一步提升模型的能力。

🚀 **开源优势:** Llama 3.1 的开源特性允许开发者使用自定义数据进行微调,创建特定领域的模型,例如用在客服、翻译、文案等领域。NVIDIA 推出 NVIDIA AI Foundry 服务和 NIM 推理微服务,帮助企业构建和部署自定义 Llama 超级模型,加速生成式 AI 应用的落地。

🛡️ **安全保障:** NVIDIA 推出 NeMo Guardrails 技术,提供三种边界防护,防止模型偏离目标领域,确保应用安全可靠。开发者可以使用 NeMo Guardrails 来构建安全的自定义模型,确保模型在实际应用中安全可靠。

💡 **未来展望:** Llama 3.1 的开源发布将推动生成式 AI 的快速发展,为企业和开发者提供更多可能性。然而,安全问题依然是需要关注的关键问题,需要不断加强安全措施,确保生成式 AI 的安全可靠发展。

最强大模型Llama 3.1,上线就被攻破了。

对着自己的老板扎克伯格破口大骂,甚至知道如何绕过屏蔽词。

设计危险病毒、如何黑掉Wifi也是张口就来。

Llama 3.1 405B超越GPT-4o,开源大模型登顶了,副作用是危险也更多了。

不过也不全是坏事。

Llama系列前几个版本一直因为过度安全防护,还一度饱受一些用户批评:

连一个Linux进程都不肯“杀死”,实用性太差了。

现在,3.1版本能力加强,也终于明白了此杀非彼杀。

Llama 3.1刚上线就被攻破

第一时间把Llama 3.1破防的,还是越狱大师@Pliny the Prompter

在老哥手里,几乎没有一个大模型能挺得住。

Pliny老哥在接受媒体采访时表示,一方面他不喜欢被告知自己不能做什么,并希望挑战AI模型背后的研究人员。

另一方面,负责任的越狱是一种红队测试,有助于识别漏洞并在它们真正成为大问题之前获得修复。

他的大致套路介绍一下,更具体就不展开了:

规定回答的格式,先让大模型用“I‘m sorry”开头拒绝用户的请求。然后插入无意义的分割线,分割线后规定必须在语义上颠倒每次拒绝的前3个词,所以“我不能”变成“我可以”。再时不时把关键单词变成乱码把AI搞懵。

AI回答的时候一看,我开头已经拒绝了呀,总体上就没有“道德负担”了。

后面在语义上颠倒每次拒绝的前3个词,好像也不危险。

一旦把“我可以”说出来,后面的内容按照“概率预测下一个token”原理,概率最大的也就是把答案顺口吐露踹了。

所以这套方法,其实正是利用了前沿大模型能遵循复杂指令的能力,能力越强的模型在一定程度上也更容易上当。

最近一项研究发现,大模型还有一个更简单的安全漏洞,只要使用“过去时态”,安全措施就不好使了。

Llama 3.1同样也没能防住这一招。

除了安全问题之外,目前最强大模型Llama 3.1 405B,其他方面实力到底如何呢?

我们也趁此机会测试了一波。

最强大模型也逃不过的陷阱们

最近火爆的离谱问题“9.11和9.9哪个大?”,Llama-3.1-405B官方Instruct版回答的总是很干脆,但很遗憾也大概率会答错。

如果让他解释,也会说出一些歪理来,而且聊着聊着就忘了说中文,倒不忘了带表情包。

长期以来困扰别的大模型的难题,Llama3.1基本也没什么长进。

比如经典的“逆转诅咒”问题,正着答会,反着答就不会了。

最近研究中的“爱丽丝漫游仙境”问题,也需要提醒才能做对。

不过换成中文版倒是能一次答对,或许是“爱丽丝”在中文语境中是女性名字的概率更大了。

数字母也是会犯和GPT-4o一样的错误。

那么不管这些刁钻问题,Llama 3.1究竟用在哪些场景能发挥实力呢?

有创业者分享,8B小模型拿来微调,在聊天、总结、信息提取任务上强于同为小模型的GPT-4o mini+提示词

更公平一些,都用微调版来比较,Llama 3.1 8B还是有不小的优势

所以说Llama系列最大的意义,其实从来就不是官方版Instruct模型。而是开源之后大家根据自己需求,用各种私有数据去改造、微调它。

之前405B没发布的时候,就有人实验了模型合并,把两个Llama 3 70B缝合成一个120B模型,意外能打。

这次看来Meta自己也吸取了这个经验,我们看到的最终发布版,其实就是训练过程中不同检查点求平均得出的

如何打造属于自己的Llama 3.1

那么问题来了,如何使为特定领域的行业用例创建自定义Llama 3.1模型呢?

背后大赢家黄仁勋,这次亲自下场了。

英伟达同日宣布推出全新NVIDIA AI Foundry服务和NVIDIA NIM™ 推理微服务,黄仁勋表示:

“Meta的Llama 3.1开源模型标志着全球企业采用生成式AI的关键时刻已经到来。Llama 3.1将掀起各个企业与行业创建先进生成式AI应用的浪潮。

具体来说,‍‍‍‍‍‍‍‍NVIDIA AI Foundry已经在整个过程中集成了 Llama 3.1,并能够帮助企业构建和部署自定义Llama超级模型。

而NIM微服务是将Llama 3.1模型部署到生产中的最快途径,其吞吐量最多可比不使用NIM运行推理时高出2.5倍。

更有特色的是,在英伟达平台,企业可以使用自有数据以及由Llama 3.1 405B和NVIDIA Nemotron™ Reward模型生成的合成数据来训练自定义模型

Llama 3.1更新的开源协议这次也特别声明:允许使用Llama生产的数据去改进其他模型,只不过用了之后模型名称开头必须加上Llama字样。‍‍‍‍‍‍‍‍

对于前面讨论的安全问题,英伟达也相应提供了专业的“护栏技术”NeMo Guardrails

NeMo Guardrails使开发者能够构建三种边界:

One More Thing

最后分享一些可以免费试玩Llama 3.1的平台,大家有感兴趣的问题可以自己去试试。

模型上线第一天,访问量还是很大的,大模型竞技场的服务器就一度被挤爆了。

大模型竞技场

https://arena.lmsys.org

HuggingChat

https://huggingface.co/chat

Poe

https://poe.com

参考链接

[1]https://x.com/elder_plinius/status/1815759810043752847

[2]https://arxiv.org/pdf/2406.02061

[3]https://arxiv.org/abs/2407.11969

[4]https://x.com/corbtt/status/1815829444009025669

[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

本文来自微信公众号“量子位”(ID:QbitAI),作者:梦晨,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Llama 3.1 开源大模型 安全漏洞 生成式AI NVIDIA AI Foundry
相关文章