Rocky Luo 2024-09-13 16:10 广东
彭博锐评 COT 。(文末有竞猜活动)
?原文转自知乎用户 PENG Bo
原文链接:如何看待 OpenAI 发布 o1 系列模型?将带来哪些变革?- PENG Bo 的回答[1]
大家都知道长期 CoT 可以提升性能,而且很快我们会看到其它家的例子,这是最后的 low-hanging fruit,因为只需合成大量训练数据,包括动态去合成有针对性的训练数据。
其实为什么 OAI 现在公布,很可能就是因为,大家很快就会陆陆续续公布。现在的所谓 AI 非常无脑,无论谁做出来,其它人很快就都做出来,大家就等着有人公布而已。
例如,我去年 7 月演示过,一个 2.9M 参数量的超小 RWKV-4 配合长期 CoT 可以精确解决各种复杂四则运算:RWKV-LM/math_demo[2]
(训练数据合成时覆盖不够全面,数字别写太长太多,但可以随意换其它随机数字)
如果用 RWKV 这样的 RNN 模型,无论做多久的 CoT,消耗的显存,和生成每个字的速度,都是恒定的,因此尤其适合做长期 CoT。相当于在 state 的潜空间做长期的行走。
数学和代码,尤其适合通过这种方法提升。而且还可以配合 MCTS。而且模型可以调用外部工具验证,可以自己纠错(这个看上去还没开放,估计因为 OAI 认为目前对于公众开放这种就显得过于强)。
我一直认为,这个方法一直做下去,足够做到"伪 AGI",替代 99+% 的人类工作。因为人类在 99+% 的时候没有智能。
然后,水涨船高,大家会习以为常,这会 commoditize。
剩下的才是真正有趣的问题,例如真正的创意,真正的洞察力,超越时代的想法,在没有路的地方走出路来,也包括真正的感悟和体验,因为这些事情的验证标准是不明确的。
人类是怎么想到这些事情的,是目前的大模型无法理解的。就像,拉马努金说他是梦到的。
当然,这些也有办法解决,只不过,如果知道的人不说,不知道的人(或模型)就不可能想出来。
例如,写作是最简单的,又是最难的。
这就像什么呢?就像一直有很多人爱吹 OAI,就像高赞回答爱吹。
因为,太多的事物,在不懂的人看来是神奇的(因为他们不可能想出来),在懂的人看来是 trivial 的(因为不用想就知道)。
令人遗憾的现实是:不懂的人,做再多 CoT,也是不可能懂的。所以 CoT 不是万灵药。
训练 loss 有奖竞猜
以下是正在训练的 RWKV-6 7B World-v3 模型训练曲线, v3 数据集在 v2.1 数据集的基础上新增了约 3.11T 数据。
我们诚邀大家参与 RWKV-6 7B World-v3 模型的最终训练 loss 值小竞猜活动!
如何参与 loss 竞猜?
只需在此推文的评论区留言你的 loss 竞猜数值,默认参与次活动。
RWKV-6 7B World-v3 模型预计在今年 11 月初完成训练。
届时,我们会公布最终训练 loss 值,评论区与实际训练 loss 最接近的五位朋友,可获得我们送出的 RWKV 帽子周边一份!
相关链接
[1]
如何看待 OpenAI 发布 o1 系列模型?将带来哪些变革?- PENG Bo 的回答: https://www.zhihu.com/question/666991594/answer/3624168868
[2]RWKV-LM/math_demo: https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo/math_demo