少点错误 20小时前

Research Note: Our scheming precursor evals had limited predictive power for our in-context scheming evals

该研究探讨了作为欺骗能力“预兆”的评估的预测能力。研究者于2024年5月设计了“预兆”评估，用于衡量与欺骗相关的关键组成部分，并在2024年12月发布了直接衡量欺骗推理能力的评估。研究发现，预兆评估在预测欺骗能力方面，其预测能力从低到中不等，尤其是在“简单”版本的评估中。研究强调了预测危险能力具有挑战性，并建议在可能的情况下直接评估目标能力。

💡 2024年5月，研究者设计了“预兆”评估，旨在捕捉欺骗的关键组成部分，如自主推理和理论心智。

🗓️ 2024年12月，研究者发布了“情境欺骗”评估，直接衡量欺骗推理能力，并设置了简单、中等和困难三种难度级别。

📊 研究分析了预兆评估预测欺骗评估的能力。结果表明，预测能力从低到中不等，特别是“简单”版本的评估具有一定的预测作用，而“困难”版本则效果中立甚至具有误导性。

⚠️ 研究指出，预兆评估在预测危险能力方面，其可靠性可能不足，尤其是在高风险情境下，例如前沿安全政策。

💡 研究建议进一步研究评估科学，并提倡尽可能直接评估目标能力，而非依赖预兆评估，以提高预测的准确性和可靠性。

Published on July 3, 2025 3:57 PM GMT

Note: This is a research note, and the analysis is less rigorous than our standard for a published paper. We’re sharing these findings because we think they might be valuable for other evaluators and decision-makers.

Executive Summary

My own take:

it's quite hard to build good precursors and there are a ton of nitty gritty considerations that make this complex.

Discuss

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Executive Summary

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签