原创 理想TOP2 2025-03-13 20:04 四川
理想智驾内测团分为鸟蛋-千人团-万人团,鸟蛋共有7人,分别为影总Tim/大懒货/高奔Gobig/大D/鸭毛/Blood旌旗/鱼霸天。
借助超级对齐,理想智驾已能日更鸟蛋版本。迭代速度再次大幅度加快。
影总Tim25年3月10日表示某AD部门已实现白天12小时人干活,晚上12小时跑仿真,当天解决的问题当天评测。
理想在超级对齐思路上,深度参考了黄民烈老师团队的思路。
黄明烈老师2024年12月15日发布
The Superalignment of Superhuman Intelligence with Large Language Models
论文链接:https://arxiv.org/pdf/2412.11145
24年7月,黄民烈老师在世界人工智能大会上也介绍了超级对齐。
视频链接:
明天推文会附上黄民烈老师演讲超级对齐文字版。
这篇论文核心是在回答如何对其可能在复杂任务中超越人类能力的超级AI系统,此时人类监督已不足够。(How to align superhuman AI systems that may surpass human capabilities in complex tasks, where human oversight becomes insufficient.)
黄民烈老师24年7月的演讲提到过去的传统对齐,假设预训练阶段的预测的next token是golden token,即认为不会预测错,是最好的token。RLHF(人类反馈强化学习)阶段,假设reward的是一个golden 函数,即认为是不会出错的reward函数。而超级对齐阶段这两个假设都不成立。
论文解决的最核心的一个矛盾是弱监督到强泛化问题,用弱监督者控制可能超越其能力的模型(The weak-to-strong generalization problem: using weak supervisors (humans or subhuman AIs) to control models that may exceed their capabilities)
解决方案是通过下图的攻击者(attacker)---学习者(Learner)---批评者(Critic)框架来实现可拓展监督(scalable oversight)。
攻击者的作用是生成能够暴露学习者弱点的对抗性查询(adversary queries),模拟攻击场景,系统性探测模型的潜在缺陷。
输入:初始种子查询(seed inputs)或自动生成的基线问题
输出:高风险的对抗性查询集合
是自动化生成的,不是人工设计的攻击模型
学习者的作用是作为被优化的目标模型,通过持续学习批评者提供的反馈信号实现自我对齐。
输入:攻击者生成的对抗性查询/批评者提供的反馈(文本批评/量化评分)/小于5%的人类专家修正
输出:优化后的新一代模型参数
实现弱监督-强泛化,即使批评者弱于学习者,也能提取有效改进信号。
批评者的作用是对学习者响应进行多维度评估,生成可解释的反馈(critiques),知道模型优化方向。
输入:攻击者查询+学习者响应组成的二元组(query-response pair)
输出:包含自然语言批评+结构化评分的混合反馈
三模块协同流程
攻击阶段:攻击者生成对抗查询Q
响应阶段:学习者产生初始回答A
评估阶段:批评者分析(Q,A)生成反馈F
学习阶段:学习者基于F更新参数
验证阶段:更新后的Learner接受Attacker新一轮测试
反复循环迭代,从而通过自动化对抗循环实现可拓展监督(scalable oversight through automated adversarial cycling)
理想在智驾中是如何具体应用的不详,不同通过大懒货微博图可以看出鸟蛋/千人团OK键上报充当了攻击者的角色。
加微信,进群深度交流理想长期基本面。不是车友群。