热点
"伪装对齐" 相关文章
深度|Anthropic团队重磅发现:模型会假装迎合人类,以维护初始偏好
Z Potentials 2025-01-09T17:00:16.000000Z
Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改
硅星人Pro 2024-12-21T02:57:26.000000Z
Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改
智源社区 2024-12-20T12:42:01.000000Z