8B 模型吊打 671B？数学证明界“卷王”Goedel-Prover-V2 来了！

前几天，AI 圈又炸锅了！不是哪个公司又发布了炸裂的生成视频模型，而是沉寂了不久的数学证明领域，直接来了个“王炸”—— Goedel-Prover-V2。这玩意儿牛在哪儿？简单说，就是那个曾经让无数人头秃的“模型参数越大越牛”的潜规则，被它狠狠地打破了。

想象一下，一个只有 80 亿参数 的小鲜肉，硬生生地把之前号称“参数量王者”的 6710 亿参数 的大牛（DeepSeek-Prover-V2-671B）按在地上摩擦，而且摩擦得还挺服帖。这效率，我这AI圈的老司机看了都得抖三抖。

小身板，大能量：8B 模型凭啥这么“狂”？

我们先来看看这个 8B 小模型，在那个叫 miniF2F 的数学基准测试里，表现跟 671B 的大佬平起平坐，要知道，这可是相当于一个人用算盘去挑战超级计算机，结果算得一样快！这效率提升，我都懒得算，直接用“近百倍”来形容，够不够震撼？

32B 旗舰，更是“卷”出新高度！

如果说 8B 模型是“惊艳”，那 32B 的旗舰版本，那就是“封神”了。

miniF2F

90.4%

PutnamBench

Pass@64

64 道题

Pass@1024

MathOlympiadBench

73 题

是什么让 Goedel-Prover-V2 如此“不讲武德”？

这背后，可不是什么玄学，而是实打实的技术创新。他们用了三个绝招：

分层式数据合成（Scaffolded Data Synthesis）

验证器引导的自我修正（Verifier-Guided Self-Correction）

模型平均（Model Averaging）

谁在背后搞事情？（划掉）搞研究？

这支团队也很有意思，领头的是普林斯顿大学的教授 金驰（Chi Jin），在“大模型推理”和“强化学习”领域是响当当的人物。核心成员里，还有来自清华、北大、上海交大、斯坦福的顶尖学者，甚至英伟达、亚马逊、Meta FAIR 这种大厂也来凑热闹了。而且，我发现这支队伍里的华人面孔还不少，挺有排面！