热点
"越狱攻击" 相关文章
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
智源社区 2025-08-02T16:06:06.000000Z
Jailbreak迎来“最后一卷”?港科大用“内容评分”重塑大模型越狱评估范式
PaperWeekly 2025-07-27T09:01:21.000000Z
Jailbreak迎来“最后一卷”?港科大用“内容评分”重塑大模型越狱评估范式
PaperWeekly 2025-07-26T10:21:00.000000Z
xAI 旗下 Grok 4 模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容
IT之家 2025-07-18T13:08:42.000000Z
Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs
cs.AI updates on arXiv.org 2025-07-08T05:54:01.000000Z
A Representation Engineering Perspective on the Effectiveness of Multi-Turn Jailbreaks
cs.AI updates on arXiv.org 2025-07-08T05:53:50.000000Z
新型 AI 越狱攻击技术可轻松突破安全防护
HackerNews 2025-06-25T03:00:39.000000Z
思维链劫持越狱技术介绍
qz安全情报分析 2025-06-20T15:18:55.000000Z
Vulnerability in Trusted Monitoring and Mitigations
少点错误 2025-06-11T21:17:32.000000Z
从 0 到 1 了解大模型安全,看这篇就够了
财猫 AI 2025-04-09T09:54:05.000000Z
CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛
我爱计算机视觉 2025-04-02T13:27:01.000000Z
CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛
我爱计算机视觉 2025-03-27T14:11:51.000000Z
超1.2万枚 API 密钥和密码现身大型语言模型训练所用公共数据集
HackerNews 2025-03-03T02:15:07.000000Z
揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?
AI科技评论 2025-02-23T16:12:22.000000Z
Anthropic公布AI模型防护新方法,可阻止95%的Claude越狱行为
互联网安全内参 2025-02-19T10:07:47.000000Z
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend
36kr 2025-02-11T09:03:38.000000Z
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend
机器之心 2025-02-11T07:51:04.000000Z
Anthropic公開憲法式分類器,大幅降低AI越獄攻擊成功率
AI & Big Data 2025-02-06T00:17:45.000000Z
DeepSeek未能通过50项不同的测试 它回答了所有本应被护栏屏蔽的问题
Cnbeta 2025-02-05T07:07:35.000000Z
研究人员发现抵御人工智能模型通用越狱攻击的新方法
安全客 2025-02-05T06:45:02.000000Z