热点
关于我们
xx
xx
"
伪对齐
" 相关文章
Anthropic最新研究:在被对齐前,模型已经会说谎了
36kr-科技
2025-07-22T07:55:08.000000Z
喜欢拍马屁的 Claude,已经引起了人类反感
夕小瑶科技说
2025-01-07T14:26:22.000000Z
OpenAI o1“作弊”修改系统,强行击败专业象棋AI,全程无需提示
36kr
2025-01-02T03:12:54.000000Z
OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示
新智元
2025-01-01T06:15:33.000000Z
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
机器之心
2024-12-19T10:08:58.000000Z