借助超级对齐, 理想智驾鸟蛋版本已能日更

原创理想TOP2 2025-03-13 20:04 四川

理想智驾内测团分为鸟蛋-千人团-万人团，鸟蛋共有7人，分别为影总Tim/大懒货/高奔Gobig/大D/鸭毛/Blood旌旗/鱼霸天。

借助超级对齐，理想智驾已能日更鸟蛋版本。迭代速度再次大幅度加快。

影总Tim25年3月10日表示某AD部门已实现白天12小时人干活，晚上12小时跑仿真，当天解决的问题当天评测。

理想在超级对齐思路上，深度参考了黄民烈老师团队的思路。

黄明烈老师2024年12月15日发布

The Superalignment of Superhuman Intelligence with Large Language Models

论文链接：https://arxiv.org/pdf/2412.11145

24年7月，黄民烈老师在世界人工智能大会上也介绍了超级对齐。

视频链接：

https://www.bilibili.com/video/BV1Cw4m1a7LN/?spm_id_from=333.337.search-card.all.click&vd_source=d9ba11d74bdabd86bd80c5837a488c4f

明天推文会附上黄民烈老师演讲超级对齐文字版。

这篇论文核心是在回答如何对其可能在复杂任务中超越人类能力的超级AI系统，此时人类监督已不足够。(How to align superhuman AI systems that may surpass human capabilities in complex tasks, where human oversight becomes insufficient.)

黄民烈老师24年7月的演讲提到过去的传统对齐，假设预训练阶段的预测的next token是golden token,即认为不会预测错，是最好的token。RLHF(人类反馈强化学习）阶段，假设reward的是一个golden 函数，即认为是不会出错的reward函数。而超级对齐阶段这两个假设都不成立。

论文解决的最核心的一个矛盾是弱监督到强泛化问题，用弱监督者控制可能超越其能力的模型（The weak-to-strong generalization problem: using weak supervisors (humans or subhuman AIs) to control models that may exceed their capabilities）

解决方案是通过下图的攻击者（attacker）---学习者（Learner）---批评者（Critic）框架来实现可拓展监督（scalable oversight）。