热点
"伪对齐" 相关文章
Anthropic最新研究:在被对齐前,模型已经会说谎了
36kr-科技 2025-07-22T07:55:08.000000Z
喜欢拍马屁的 Claude,已经引起了人类反感
夕小瑶科技说 2025-01-07T14:26:22.000000Z
OpenAI o1“作弊”修改系统,强行击败专业象棋AI,全程无需提示
36kr 2025-01-02T03:12:54.000000Z
OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示
新智元 2025-01-01T06:15:33.000000Z
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
机器之心 2024-12-19T10:08:58.000000Z