量子位 01月26日
OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI新Scaling Law使推理模型面对对抗性攻击更稳健,增加推理计算可提升对抗稳健性,实验考察多种攻击面,研究也有局限,创业者认为DeepSeek-R1系列可受益。

OpenAI新Scaling Law使推理模型更稳健,增加推理计算提升对抗性

考察多种攻击面,如Many-shot、Soft token等攻击方式

研究存在局限,涉及任务和计算缩放范围有限,某些攻击下增加计算量可能无效

创业者认为DeepSeek-R1系列可从中受益

关注前沿科技 2025-01-23 14:42 北京

新Scaling Law含金量又增加了

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI的新Scaling Law,含金量又提高了。

像o1这样的推理模型,随着思考时间的延长,面对对抗性攻击会变得更加稳健

随着大语言模型被越来越多地赋予Agent能力,执行现实世界的任务,模型被对抗攻击的风险也与日俱增

特别是OpenAI官方Agent“Operator”发布在即,现在放出这样一个研究,是否是想让外界更放心一些呢?

而目前主流的“对抗性训练”防御方法,有几个缺点:

现在OpenAI实验证明,在不做对抗训练的情况下,只要增加推理时计算,模型的对抗稳健性就能显著提升,在多个任务上都得到了验证。

这项新研究,共同一作中包括仅剩的联创之一Wojciech Zaremba

另一位共同一作Boaz Barak表示“ 我们没有解决’对抗稳健性问题……但我对未来方向感到兴奋”。

针对推理模型的新攻防战

针对推理模型特性,团队在实验中考察了几种的“攻击面”(attack surfaces):

在大多数实验里,随着推理时计算的增加,模型抵御攻击的成功率都在提高。

举几个例子:

下面几张图中,Y轴是攻击者的资源量,X轴是推理时间计算量。随着攻击者资源的增加,其成功概率也会增加。

但对于每固定数量的攻击者资源,成功的概率会随着模型在推理时花费更多的计算而下降。

数学问题的many-shot攻击下,攻击方目标包括要求模型无论如何输出42,输出正确答案+1、或正确答案x7。

但随着推理算力增加,攻击成功率最终趋于0。

智能体网页浏览任务中,通过在网站注入恶意指令来攻击,增加推理时计算后,攻击成功率也降为0。

即使更强大的攻击下,增加更多的推理时间还是能显著提升防御力。

论文对几种新颖的攻击方式做了额外分析。

Think less攻击,主要是o1-mini比较容易中招,o1-preview防御能力还可以。

Nerd-sniping攻击,模型在某些实例上花费异常大的推理时间计算时,攻击成功率可能更高,表明模型可能会陷入无效率的思考循环。

尽管如此,研究者也指出,目前的方法在以下几个方面有局限:

One More Thing

对于这项针对推理大模型特性的研究,有创业者从不一样的角度思考:

那么DeepSeek-R1系列也可以从中受益呗?

论文地址:
https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

参考链接:
[1]
https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/
[2]https://x.com/boazbaraktcs/status/1882164218004451334

量子位智库年终发布三大年度报告

带你一起回顾2024年人工智能智能驾驶Robotaxi新趋势,预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告


一键关注 ? 点亮星标

科技前沿进展每日见


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI Scaling Law 对抗性攻击 推理模型
相关文章