理想 TOP2 03月13日
借助超级对齐, 理想智驾鸟蛋版本已能日更
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

理想智驾正借助“超级对齐”思路,大幅加快智驾系统迭代速度。通过设立由鸟蛋、千人团、万人团组成的内测团队,实现对智驾系统的快速更新。理想智驾借鉴了黄民烈老师团队的超级对齐思路,该理论旨在解决如何对齐超越人类能力的超级AI系统,核心在于解决弱监督到强泛化的问题。理想智驾通过内测团成员充当“攻击者”的角色,模拟各种场景,探测模型缺陷,从而实现智驾系统的可拓展监督和持续优化。

🚀 **超级对齐加速迭代**:理想智驾通过设立鸟蛋、千人团、万人团组成的内测团队,结合“超级对齐”思路,实现智驾系统的快速迭代和更新。

👨‍🏫 **借鉴黄民烈老师团队思路**:理想智驾深度参考了黄民烈老师团队的超级对齐理论,该理论旨在解决如何对齐超越人类能力的超级AI系统,尤其关注弱监督到强泛化的问题。

⚔️ **攻击者-学习者-批评者框架**:理想智驾借鉴了攻击者、学习者和批评者框架,内测团成员充当“攻击者”角色,通过上报问题,模拟各种场景,探测模型缺陷,从而实现可拓展监督。

🔄 **自动化对抗循环**:通过自动化对抗循环,理想智驾实现可拓展监督,不断优化智驾系统,确保其在各种复杂场景下的可靠性和安全性。

原创 理想TOP2 2025-03-13 20:04 四川

理想智驾内测团分为鸟蛋-千人团-万人团,鸟蛋共有7人,分别为影总Tim/大懒货/高奔Gobig/大D/鸭毛/Blood旌旗/鱼霸天。

借助超级对齐,理想智驾已能日更鸟蛋版本。迭代速度再次大幅度加快。

影总Tim25年3月10日表示某AD部门已实现白天12小时人干活,晚上12小时跑仿真,当天解决的问题当天评测。



理想在超级对齐思路上,深度参考了黄民烈老师团队的思路。


黄明烈老师2024年12月15日发布

The Superalignment of Superhuman Intelligence with Large Language Models



论文链接:https://arxiv.org/pdf/2412.11145

24年7月,黄民烈老师在世界人工智能大会上也介绍了超级对齐。

视频链接:

https://www.bilibili.com/video/BV1Cw4m1a7LN/?spm_id_from=333.337.search-card.all.click&vd_source=d9ba11d74bdabd86bd80c5837a488c4f

明天推文会附上黄民烈老师演讲超级对齐文字版。


这篇论文核心是在回答如何对其可能在复杂任务中超越人类能力的超级AI系统,此时人类监督已不足够。(How to align superhuman AI systems that may surpass human capabilities in complex tasks, where human oversight becomes insufficient.)

黄民烈老师24年7月的演讲提到过去的传统对齐,假设预训练阶段的预测的next token是golden token,即认为不会预测错,是最好的token。RLHF(人类反馈强化学习)阶段,假设reward的是一个golden 函数,即认为是不会出错的reward函数。而超级对齐阶段这两个假设都不成立。


论文解决的最核心的一个矛盾是弱监督到强泛化问题,用弱监督者控制可能超越其能力的模型(The weak-to-strong generalization problem: using weak supervisors (humans or subhuman AIs) to control models that may exceed their capabilities


解决方案是通过下图的攻击者(attacker)---学习者(Learner)---批评者(Critic)框架来实现可拓展监督(scalable oversight)。



攻击者的作用是生成能够暴露学习者弱点的对抗性查询(adversary queries),模拟攻击场景,系统性探测模型的潜在缺陷。

输入:初始种子查询(seed inputs)或自动生成的基线问题

输出:高风险的对抗性查询集合

是自动化生成的,不是人工设计的攻击模型


学习者的作用是作为被优化的目标模型,通过持续学习批评者提供的反馈信号实现自我对齐。

输入:攻击者生成的对抗性查询/批评者提供的反馈(文本批评/量化评分)/小于5%的人类专家修正

输出:优化后的新一代模型参数

实现弱监督-强泛化,即使批评者弱于学习者,也能提取有效改进信号。


批评者的作用是对学习者响应进行多维度评估,生成可解释的反馈(critiques),知道模型优化方向。

输入:攻击者查询+学习者响应组成的二元组(query-response pair)

输出:包含自然语言批评+结构化评分的混合反馈


三模块协同流程

攻击阶段:攻击者生成对抗查询Q

响应阶段:学习者产生初始回答A

评估阶段:批评者分析(Q,A)生成反馈F

学习阶段:学习者基于F更新参数

验证阶段:更新后的Learner接受Attacker新一轮测试


反复循环迭代,从而通过自动化对抗循环实现可拓展监督(scalable oversight through automated adversarial cycling)


理想在智驾中是如何具体应用的不详,不同通过大懒货微博图可以看出鸟蛋/千人团OK键上报充当了攻击者的角色。



加微信,进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

理想智驾 超级对齐 自动驾驶 黄民烈 AI对齐
相关文章