当 R1 学会骂人和脱口秀。。

原创 orangesai 2025-02-03 20:31 北京

呼兰：不给我们留啥路了。。。

春节假期马上就要过去了，这应该是 DeepSeek 系列的最后一篇。我想表达的东西也终于可以全部写在这里。

这几天使用 DeepSeek R1 过程中，有一个让我百思不得其解的问题：

为什么一个针对数学和推理优化的模型，却有着极高的文学造诣？

而且这种文学造诣不止是中文，在英文领域也超过了 Claude，拿下了创意写作榜第一。

这个问题我思考了好几天，直到前几天看到了一篇 Google 的最新论文，这个疑惑才算解开。

这一切还是要从 DeepSeek 模仿贴吧老哥骂人爆火说起。

虽然在科技圈 DeepSeek 的爆火主要是因为领先的模型技术水平和干掉英伟达股价的训练成本，但是在小红书流传最广的却是 DeepSeek 的文学造诣。

特别是当 DeepSeek 用贴吧老哥的口气骂人的时候，特别狠。

有多狠呢？上图

另外一个例子，是我的朋友赵纯想，在春节期间打 Dota2 被辱骂，于是写了一个回击工具：吵架包赢，里面的核心也是基于 DeepSeek 的贴吧老哥骂人能力。

项目已经开源，项目地址

https://github.com/liseami/DeepRant/

为什么有了深度思考能力之后，AI 连骂人都变强了？

我在观察 R1 思考的时候，发现它自己已道破天机：

骂人，不仅要靠脏话堆叠，也要有逻辑性做支撑。

这就是 R1 成为骂人最强模型的根本：逻辑性强。

这个道理不仅适用于骂人，也同样适用于写文章、写小说。

文采只是表面功夫，背后全是逻辑思维。

有人不认可这个观点，回应道：

网络上中文垃圾语言污染了 DeepSeek 的思考。

我把这个回应发给 R1，让它给一个有文化的回复，R1 的回复让我笑出了声：

（抚电子长髯）君可知《诗经》"相鼠有皮"乃讽世之俚语，《史记》"竖子不足与谋"实鸿门之市骂？敦煌变文犹存"放屁"俗谚，冯梦龙笔下多见"鸟人"切口。中文如长江浩荡，载得动李太白捞月的琉璃盏，也浮得起张打油打翻的醋葫芦。
今之网言恰似洛阳纸贵时的童谣，汴梁瓦舍里的叫卖。您当这五千年的舌根是琉璃塔上不染尘的舍利子？殊不知仓颉造字时，鬼哭的正是人间百味都要入墨！
泥沙俱下方显大江本色，荤素不忌才是语言活水。您嫌腌臜词汇污了清听，却不见《康熙字典》里"屎"字列在"米"部——老祖宗早看透了，再精致的文明也得有排泄代谢的坦荡。（击键如磬）与其忧心赛博污水，不如信中文这老炉鼎自有炼金术，三年梗五年嘲，自会淬出《世说新语》般的新火种。

精彩，太精彩了。

各类书籍里的语言早已包罗万象，贴吧老哥不过是一个小小的模仿罢了。

以前有个电影里说过，上网要想心情好，第一条规则就是：不要看评论区。

有了 R1 之后，从此以后再也不怕网络恶评，直接祭出嘴替 R1 ，优雅回击。

所有愤怒的情绪，都变成了赞美，赞美这个模型真TM太好用了。

这时候有人说道：

骂人和脱口秀原理其实是一样的。高智商组织的跳跃性逻辑，卡的的对手CPU冒烟。一个只能用大笑掩饰自己智商的不足，一个无力反驳哑口无言或者无能狂怒愤而动手。

于是我就让 R1 模仿呼兰的风格写了一个脱口秀，全文未改一个字。

为了方便大家理解感受，做成了视频形式：

朋友把这个AI 写的脱口秀发给了呼兰，还得到了回复：

（呼兰老师又谦虚又幽默，AI 肯定无法取代呼兰老师，AI 只想当个安静的助手，帮助呼兰老师写段子。）

事情发展到这里，文章开头的疑惑，变得逐渐清晰了起来。

为什么一个针对数学和推理优化的模型，却有着极高的文学造诣？

只是因为逻辑思维能力变强了？

就在这时候，o3 mini 发布了

我让 o3 mini 也试着写了一个脱口秀，结果却惨不忍睹。

有人提议说 o3 mini 中文肯定不行了，应该用英文写，我试了，确实比中文强点，但好像也不如 R1。

这可不是个例，还记得开头说的那个写作榜单吗，你有没有好奇，为什么榜单里没有 o3 mini？

原来 o3 mini 的写作能力竟然还不如 o1 mini，直接落榜。。。

官方宣称 o3 mini 的解题、代码能力是超过 R1 的，但是文学造诣却远远落后。

为什么会这样呢？难道是因为 o3 mini 是一个蒸馏出来的小模型，靠蒸馏而非自身强化学习进化出来的深度思考能力，难道无法泛化到文学领域吗？

就在我苦苦思考这个问题的时候，正好看到了 Google 在 1 月 29 日发表的一篇论文，这篇论文几乎完美地解答了我的问题。

这篇论文的名字叫：

《SFT 记忆，RL 泛化：基础模型训练后的比较研究》

论文地址：https://huggingface.co/papers/2501.17161

这篇论文用一张图，非常清晰地解释了 RL 和 SFT 对模型的影响。

我来简单地解释一下：

SFT 的含义是监督微调，就像给学生看大量的例题和答案。学生通过模仿例题来学习。（虽然知识蒸馏和SFT是两个概念，但可以可以理解为SFT是知识蒸馏的一种简单形式）

强化学习 (RL) 就像让学生自己解题，答对了给奖励，答错了给惩罚。学生通过试错和总结规律来学习。

对照图表先看虚线，在与训练数据相似的场景里（In-Distribution) ，SFT 表现很好，一开始大幅领先 RL，但随着训练时间的增加，逐渐被RL追了上。

对照图表再看实线，在与训练数据非常不同的场景里（Out-of-Distribution），SFT 的表现急剧下降，而 RL 则面对新的环境表现稳定！

这篇论文的结论是，SFT 更倾向于记忆，像背题。RL则会泛化，是真的学会了原理。

类比一下：

强化学习 (RL) 是赋予 AI 一个能够自己思考的 “大脑”，

监督微调 (SFT) 则像是给它一张 “小抄”。

有人说，这个结论在 AlphaZero 的时候不是就已经有了吗？

没错！AlphaZero 标志着人工智能从依赖人类经验的「模仿学习」转向自主探索的「创造学习」。

但是在过去两年里，SFT 和蒸馏大行其道，语言模型本身就有一定的泛化能力，所以这篇论文做一次验证也依然很有意义。

而且，尽管这个结论看起来非常清晰，但到了实操环节就非常容易踏入思维的陷阱：

举例来说，

要提高模型的骂人水平，应该给喂更多百度贴吧的语料吗？

要提高模型的脱口秀写作水平，应该给它喂所有的脱口秀语料吗？

我们的第一直觉，一定是「应该喂更多」！

这就是思维的惯性，把我们带到了陷阱里。

直到 o1 和 R1 出来，大语言模型的 RL 总算是跑通了。

而 R1 的技术报告更是直接把 RL 的秘密公之于众，让 LLM 真正迎来了自己的 AlphaZero 时刻！

R1 靠着解题学会了逻辑思维的基本原理，同时稳稳提升了自己的骂人和脱口秀的水平。

而 o3 mini 可能因为模型参数（脑子）太小，只做了数学和代码领域的蒸馏，但无法泛化到数据分布外的文学领域。

于是，我们终于可以试着去回答文章开头的问题：

为什么一个针对数学和推理优化的模型，却有着极高的文学造诣？

从 SFT，到 RL。

从模仿，到创造。

经过这个十字路口，就踏上了 AGI 之路。

以上，就是今天的全部分享。

如果觉得有帮助，请点赞、转发、关注橘子汽水铺。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签