AI Impacts 2024年10月25日
An Overview of “Obvious” Approaches to Training Wise AI Advisors
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了训练智慧AI顾问的四种方法:模仿学习、直接方法、原则方法和散弹枪方法。作者认为模仿学习是最有前景的方法,并详细分析了每种方法的优缺点,包括基础能力、可行性、对抗性优化、原则应用、泛化能力和智慧爆发潜力等。文章还探讨了安全LLM、智慧爆发和整体性等重要概念,并对每种方法进行了评估。作者认为模仿学习方法具有较高的泛化能力和智慧爆发潜力,并且可以有效地解决对抗性优化和原则应用问题。

😄 **模仿学习**:该方法通过训练模仿学习代理来模仿实验室认为是智慧的人类。作者认为这种方法是最有前景的,并提出了具体的训练步骤:首先,在互联网数据分布上训练模型;然后,在干净数据上微调模型,以消除偶尔生成垃圾内容的倾向;接着,根据所需的输出类型微调模型;之后,在高质量数据(例如已发表的哲学论文、认真讨论的聊天记录)上微调模型;最后,在被认定为智慧的人群数据上微调模型,并为每个智慧个体创建特定的微调模型或 Lora 适配器。 该方法的优势在于:它可以有效地减少对抗性优化,因为模型的目标是模仿人类的行为而不是追求某个特定的目标;它可以更容易地验证模型的输出,因为可以与被模仿的人进行沟通,并验证模型是否正确地模仿了他们的言行;它可以获得高质量的训练数据,因为更容易收集人类的言行数据而不是收集关于最佳解决方案的数据。 该方法的挑战在于:一些步骤可能与之前的步骤冲突,例如,一些被认定为智慧的人群数据可能来自非严肃的讨论。作者建议在训练和推理阶段添加元数据(例如严肃讨论、被认定为智慧的人)来解决这个问题。

🤔 **直接方法**:该方法直接训练AI基于人类的示范和反馈来变得智慧。该方法最有可能使用监督学习和RLHF在基础模型上进行训练。

🧐 **原则方法**:该方法试图在深层的原则层面上理解智慧,并构建一个根据这些原则提供建议的AI。该方法的目标是开发对智慧的完整原则性理解,但更现实的可能性是只获得部分理解。

🤯 **散弹枪方法**:该方法涉及从一个固定的集合中向决策者投掷大量可能相关的智慧原则和/或轶事(智慧的精华),希望阅读这些内容能够导致智慧的决策。该方法会训练一个模型,根据过去的用户评价来确定哪些精华应该优先考虑,这很可能通过在基础模型上使用RLHF来实现。

🚀 **智慧爆发潜力**:该方法可以利用可扩展的对齐技术来实现智慧的放大: * “如果你知道X会怎样?”结合RAG(检索增强生成)技术 * 自一致性 * 辩论

By Chris Leong

This was a prize-winning entry into the Essay Competition on the Automation of Wisdom and Philosophy.

I consider four different “obvious” high-level approaches to training wise AI advisors. I consider imitation learning to be the most promising approach as I’ll argue in an upcoming sequence on Less Wrong, however, I’ve tried to take a more balanced approach in these notes.

Approach:

Definitions:

Considerations:

Evaluation:

Please keep in mind that my assessments of these techniques on each of the criteria are essentially hot-takes.

Appendix on the Imitation Learning Approach:

Because imitation learning approach is difficult to understand I’ve added answers for three of the most common questions. I’ll be explaining this approach in a lot more detail in my upcoming Less Wrong sequence:

Notes

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 智慧 模仿学习 原则方法 智慧爆发
相关文章