热点
关于我们
xx
xx
"
模型安全
" 相关文章
Unfaithful Reasoning Can Fool Chain-of-Thought Monitoring
少点错误
2025-06-02T20:07:30.000000Z
GPT-4o 成了一个荒谬的谄媚者
硅星GenAI
2025-05-13T16:51:53.000000Z
GPT-4o成了一个荒谬的谄媚者
虎嗅-AI
2025-04-30T13:53:19.000000Z
Reward hacking is becoming more sophisticated and deliberate in frontier LLMs
少点错误
2025-04-24T16:07:40.000000Z
OpenAI’s GPT-4.1 may be less aligned than the company’s previous AI models
TechCrunch News
2025-04-23T17:56:53.000000Z
Our Approach to Understanding and Addressing AI Harms
Newsroom Anthropic
2025-04-22T20:05:15.000000Z
大模型安全防护体系研究
信息安全国家工程研究中心
2025-04-22T13:35:25.000000Z
【LLM發展需考量資安,2025年OWASP新榜單出爐】導讀LLM應用程式的10大風險
AI & Big Data
2025-04-18T01:42:53.000000Z
AI让你更emo?EmoAgent助你心理更健康;Google DeepMind:新数据如何“诱导”大模型|今日热门论文
智源社区
2025-04-17T02:57:52.000000Z
One-shot steering vectors cause emergent misalignment, too
少点错误
2025-04-14T06:47:24.000000Z
永别了,GPT-4!
智源社区
2025-04-14T04:47:37.000000Z
OpenAI 新规:组织想要用未来 AI 模型需先“验明正身”
IT之家
2025-04-13T23:48:34.000000Z
移动端AI安全再突破!水印保护新范式:403个AI App成功保护率超8成
智源社区
2025-04-12T11:52:38.000000Z
移动端AI安全再突破,水印保护新范式:403个AI App成功保护率超8成
36氪 - 科技频道
2025-04-11T08:21:45.000000Z
移动端 AI 安全再突破:水印保护新范式 THEMIS 框架发布,403 个 AI App 成功保护率超 8 成
IT之家
2025-04-11T06:59:02.000000Z
对代码预训练模型的多目标后门攻击
拨开云雾
2025-04-06T16:29:01.000000Z
Sleep peacefully: no hidden reasoning detected in LLMs. Well, at least in small ones.
少点错误
2025-04-04T21:07:19.000000Z
《本地部署AI信息安全框架:保障AI系统安全的关键举措》
安全客
2025-03-26T03:19:22.000000Z
AI models can be dangerous before public deployment
少点错误
2025-02-26T20:51:55.000000Z
The GDM AGI Safety+Alignment Team is Hiring for Applied Interpretability Research
少点错误
2025-02-24T02:17:30.000000Z