让流浪汉都能学会的大模型教程——关于大模型的误解、局限和惊人本事

本章要聊的事：

大模型跟人类在“学习方式”上的巨大差异怎么让大模型在“低延迟”和“高并发”应用中表现更靠谱让大模型“边走边想”：中间结果也能变成更好的最终答案为啥大模型不是万能的？背后有计算复杂度这只“无形的大手”限制着它

感谢 ChatGPT 的横空出世，现在全世界都知道“大模型”这玩意儿有多牛了。不过，知道是一回事，误解也是一大堆。

有人觉得大模型天天在偷偷“自我进化”，像钢铁侠那样边战斗边升级；
有人觉得它比人聪明，迟早会取代所有人类工作；
还有人甚至开始担心：“天哪，AI 会不会统治地球啊？”

咱们不是来当乐观派也不是来当杞人忧天派的——
我们承认：大模型确实值得认真对待，它确实有一些你不得不重视的能力和问题，
不过吧……很多你在网上听到的传言，可能就像小时候流传的“喝可乐会融化牙齿”一样，夸张得不行。

这一章我们要聊的，不是吓唬你、也不是捧杀它，
而是从底层机制的角度，给你讲清楚：大模型到底是怎么工作的？哪些传言是真的，哪些只是误会？

我们会聊三件事：

“人和大模型的学习方式，天差地别”

“别再说它‘在思考’了，它其实是在‘算’”

“大模型不是超人，它也有‘算不过来’的时候”

这些点听起来好像有点“程序员味儿”，但你别怕，咱会用最通俗的方式讲清楚，
讲完你就知道：什么时候该用大模型，什么时候还是让人类自己上吧！

7.1 人类学习 vs 大模型：谁学得快？谁学得傻？

虽然我们之前已经隐隐约约地聊到过这个话题，但现在是时候摊牌了：
大模型的“学习”和人类的学习，压根不是一回事！

别看现在大模型说话像模像样，还能写文章、回答问题、讲笑话，甚至模仿莎士比亚——
听起来是不是有点像它真的“会学”了？
甚至网上还有一大票人信誓旦旦地说：这货已经开始自我进化了！
拜托，冷静点——
大模型和人类之间，差的不是一丁半点，而是宇宙级的差距。

理解这个差距非常重要，因为它会直接影响你在实际使用时的判断：
什么时候该用人？什么时候该放AI上场？人和AI怎么搭配才不内耗？

先说说大模型是怎么“学”的？

如果你翻回去看第四章，我们讲过，大模型的“学习”其实是通过一种叫做梯度下降（Gradient Descent）的算法，在海量文本中预测“下一个词是什么”。
然后第五章我们又讲了它的微调（比如 RLHF） ——再把模型调一调，让它学会更“讨人喜欢”的回答方式。

但说到底，它的“学习”过程就是调整上亿个参数，靠数学公式一点点磨出来的——
跟人类边听边学、边问边懂、脑子里有顿悟、有误解、有奇思妙想的那种“学”，完全不一样。

来个对比：大模型学语言 vs 小朋友学说话

你见过哪个孩子从来没人跟他说话、也没看过书、没刷过动画片，结果突然就会说话了？
当然没有啊！

语言的学习，本质上是一种“交互”，我们靠听别人怎么说、模仿他们的表达，逐渐掌握语言的结构和用法。
而大模型是靠把几十亿文档“塞”进它的胃，然后用公式预测下一个词该是什么。
你让它像孩子一样先学“妈妈”“吃饭”，然后一步步构建语言理解？不好意思，它一上来就是硬核读本，直接吞下整本百科全书。

数据量上的悬殊差距：

我们拿一个“超级能聊的小孩”来对比一下：

2400 万词

几千亿个词

再说一次：几千亿 vs 两千四百万。
这就好比——人类是喝勺子汤，大模型是对着消防水龙头狂灌。

问题是：这么灌也没灌出理解来，你说这效率……是不是有点感人？

学习顺序也不同：人是“搭积木”，大模型是“一口吞”

我们学语言是有顺序的——从“妈妈”“爸爸”到“不要”“吃饭”，
再慢慢学颜色、数字、再到抽象概念，像搭积木一样一层层来。

但大模型不是，它一上来就是海量词汇堆在一起，然后按“出现频率”来学习，
你可以想象它第一次“学习”的时候，就可能看到我们这本书的全文，直接照单全收。

这种方式虽然在“速度”上看起来很猛，但会让它在概念之间建立深层联系时有些吃力。
因为它没有先学“小朋友的世界”，而是直接被丢进了“百科全书宇宙”。

不过人类打不过大模型的地方也有：它能并行、能放大

别忘了，大模型不是靠一台电脑苦哈哈学完这些词的，
而是成千上万台机器同时训练，就像数码版的“修仙闭关大会”。

更重要的是——你不可能雇一万个大学生去读所有报表、合同、邮件，然后生成分析报告、找出潜在风险、回答政策问题。
但你可以让一万个大模型实例同时干这些活儿，还不喝咖啡不摸鱼！

小结：人类 vs 大模型的“学习能力”对比图（见图 7.1）

结合我们前几章的内容，我们可以大致总结一下：
大模型在数据量、速度、并行处理方面碾压人类；
但在人类那种理解力、学习效率、抽象联想能力上，还差着一大截。

所以到底什么场景适合用大模型？什么又该交给人类处理？
图 7.1 会帮你一目了然地看懂这个选择题。

大模型的优点，还是有那么几条的：

知识面宽到吓人

能写、能润色、还能救你于“写作卡壳”

训练比养一个人快太多了

跑起来便宜得离谱

不过大模型也不是十全十美的，下面是它的一些缺点：

训练成本高得离谱

不会“变通”，不懂“看眼色”

容易被骗，容易被恶意利用

总之，大模型既是“AI小天才”，也是“听话的大孩子”。它有它的强项，但也有明显短板——
别把它当成“完美员工”，更别幻想它能自学成才、一路开挂、拯救世界。
它更像是你雇来的一位高效、但需要你指导的“实习生”AI。

7.1.1 大模型能不能“修炼成仙”？——关于自我提升的幻觉

人类，是可以自己“变强”的。
你遇到一个问题，可以钻研、可以反思、可以找资料、换思路，最后摸索出一个更好的解决办法。
这就是我们常说的“成长”“进化”“顿悟”。人类就靠这个从石器时代一路走到了AI时代。

那大模型能不能也这么来一套自我升级的套路呢？

在 AI 圈子里，其实一直有人很认真地想搞这么一件事——
听起来很简单、很“自洽”，流程是这样的：

先训练一个大模型（就像你培养一个初级学徒）；然后让它自己生成一批“新数据”（相当于自编自导自演一波）；接着用这些新数据来继续训练它自己（好比一个人看自己写的东西，再不断修订）；如此反复，直到变成“超级模型”。

是不是听着很像“AI 修炼内功，一路自学成仙”？
但是——现实啪啪打脸：这套路根本行不通。

为啥不行？我们搬出“信息论”来讲讲道理

信息论是干嘛的？
它告诉我们，信息是有限资源，就像你一锅粥里只有那么多米，倒来倒去也煮不出牛排来。

你最开始训练大模型用的那一堆数据，信息量是固定的。你能让模型“吸收”这些信息，模拟出一个大概的分布，但：

👉 当你让它自己“生成新数据”时，其实它不过是在照猫画虎、模仿原始数据的风格，
而且这个模仿还不完美，甚至带点噪音和误差。

所以你再拿这些“模型自言自语”的内容去喂它自己，效果只会越来越差，甚至越来越“蠢”……

总结一句话就是：
它自己造的“新知识”，其实是“旧知识打折重印版”，还可能是盗版。

怎么破？只有一个办法：靠外援！

你要让模型真正变强，每一轮必须喂它新的、来自外部世界的信息——比如最新的科研论文、人类写的新代码、现实生活中发生的新事。

否则你就陷入了一个“AI 自嗨循环”：

自己骗自己 → 用假数据训练自己 → 更容易骗自己 → 最后连自己都骗不了……

这事也牵扯到很多人对“AI 会毁灭人类”的担忧

有人担心，大模型会越变越聪明，最后变得比人类还聪明一万倍，搞得我们连它在干啥都看不懂，更别说控制它了。
这种想法的核心是相信：大模型会自己寻找工具、自主收集数据、突破各种限制，不断“强化自己”。

但说到底，这种担心其实忽略了一个最朴素的事实：

所有技术都存在瓶颈，大模型也不例外。

比如，信息越挖越难挖、收益越来越低（也就是著名的边际效应递减），这不是什么神秘限制，而是自然规律。

所以，大模型的“自我修炼”是有限的，不加干预，它成不了孙悟空。

图 7.2 就描绘了这种**“AI 自我提升”不可持续的天花板**，感兴趣的朋友可以研究一下。

技术改进的极限：连摩尔定律都开始“吃老本”了

说到技术发展遇到瓶颈，最经典的例子之一就是——摩尔定律。
这条“定律”大致意思是：芯片上的晶体管数量每隔18到24个月就翻一倍。

听起来是不是有点像科技界的“内卷标杆”？确实，它预测芯片发展速度还挺准的。

但！你要注意，现在我们已经开始看到这玩意儿进入了传说中的 S 型曲线，也就是边际效益递减期。

晶体管的数量虽然还在涨，但翻倍的速度没以前那么快了，
更重要的是：整个系统的性能也开始进入瓶颈期了。

也就是说，芯片上堆再多晶体管，性能也不一定就能再翻倍，其他瓶颈也开始冒头。
比如什么呢？

👉 GPU 昂贵得离谱，配套的电力、散热、数据中心也烧钱得恐怖。
你不能指望只靠“加晶体管”就能无穷无尽地让大模型变强——连摩尔定律都不信这个邪了。

别用“人类标准”来评判大模型，它不是人类！

这年头，你是不是经常看到那种新闻标题：

“某某大模型考过了医学院入学考试（MCAT）！”
“大模型竟然通过了律师资格考试（Bar Exam）！”
“GPT的IQ高达145，比你聪明！”

听起来很炸裂，感觉大模型下个月就能当你领导了。

但冷静下来想想，这些“成绩”真的能说明它比你聪明吗？未必！

因为——大模型不是人，它的“聪明”方式和你压根不一样！

首先，它可能在训练时就见过很多类似题目。你刷100遍真题也能考满分，对吧？
其次，这些测试本身是给人类设计的，不是用来测试AI的。

IQ 测试、MCAT、司法考试，这些题目是建立在人类行为统计上的，
它们是“相关性强”，但不是“因果关系”。

举个栗子 🌰：

🩸 血糖测试 是“因果”——你血糖太高太低，身体会出问题，这是我们生理上懂得很清楚的事情。

🧠 IQ 测试 是“相关”——高IQ 和某些好结果（比如学业、职业）之间有关联，
但它并不是说“你 IQ 高 = 你就能做成所有事”。

它只是一个经过多年打磨的工具，
我们知道答某些题的人，通常能在现实中做得不错，
但我们不清楚这些题到底有没有测出“真正的聪明才智”。

所以结论是：

别光看大模型能考多少分、拿什么“证书”，就以为它已经“成人成神”了。
那只是一些指标，不是它能力的全部、也不是它理解世界的证明。

人类的智慧是立体的，有情感、有直觉、有顿悟；
大模型只是把世界拼成了“预测下一个词”的概率矩阵。

它不是你对手，更不是你上级，
它是你手里的超级计算器 + 写作助手 + 萌萌哒“数据鹦鹉”🦜——
关键是，你得知道怎么用它、啥时候别用它！

靠“外挂”才能变强：外部信息对大模型的“加成”

虽然大模型自己没法修炼成仙，但人类早就给它配好了“外挂系统”。

比如：

机器人手臂

苹果手机的虹膜识别

代码生成与数学验证

这些例子说明：只要外挂挂得好，大模型确实能“变强一点” 。

但注意！这不代表它可以无穷无尽地自己升级。原因很简单：

这些外挂工具——比如物理模拟器、代码编译器、数学验证系统……
这些本身也是人类写出来的！

也就是说：大模型之所以能“变聪明”，本质上还是因为我们喂给它新的、更有质量的信息。

你要真想让它越来越强，得不断提升这些外挂工具，而这事儿……又回到了人类头上。
于是，另一个“经济瓶颈”出现了：

想让大模型实现“自我提升”，就得投入更多资源搞配套工具，
你以为是在升级AI，其实是你自己加班写外挂。

说到底：靠外挂是能提升，但别指望它永动机式狂飙，最后还是得我们人类来擦屁股。

7.1.2 小样本学习：教它几招，它就能上场？

小样本学习（Few-shot Learning），也叫上下文学习（In-Context Learning） ，是大模型界非常流行的一招。

这招怎么玩？

你不需要重新训练模型，而是在“提示词 prompt”里，直接塞几个示例告诉它：

“兄弟，看好了！你待会就按这个风格来答题！”

比如，你想让大模型扮演一个客服机器人，回答用户的问题。你可以给它这样的提示：

用户： 我的订单怎么还没发货？
客服示例回复： 您好，我们正在为您准备发货，预计明天发出，请耐心等待～

这就叫 One-shot learning（单样本） ，也就是给一个例子。
你要是给两个例子呢？那就是 Two-shot；再多点，就统称为 Few-shot（小样本） 。
但重点不是到底几个，而是“就给它几条看起来像模像样的范本”，让它“照猫画虎”。

这种方式非常实用，尤其是在不方便或不可能重新训练模型的场景中——
你可以用它来让模型模仿语气、学会格式、甚至调整内容风格。

这招其实就是提示工程（Prompt Engineering） 的经典玩法，
第 7.4 图展示了这个操作的具体样式，简直就是“教AI画画前，先给它看看范本”。

加点例子，大模型表现更靠谱？那它到底“学”了没？

在提示词里加几个例子，确实能让大模型在新任务上表现得更聪明。
这招好就好在：

你不需要重新训练它

效果比“裸问”（Zero-shot）要好

但问题来了：这种“few-shot”方式真的算“学习”吗？

其实，它根本没“学会”，只是“照着你说的演了一遍”

少样本提示（few-shot prompting）不是训练。

你没有动模型的任何一根神经（也就是参数 weight），模型的“脑子”还是原来的“脑子”。
哪怕你让它今天跑10万个提示词、明天跑100万个，到了后天，它还是那个它：

🧠 一滴进步都不会有。

除非你手动优化提示词，换更合适的例子，或者多加点参考，
否则它永远不会“自己变聪明”。

从这个意义上讲，few-shot 并不是真正的学习，它更像是“提词器”变高级了。

不过从另一个角度讲，它又有点像“在学习”

虽然大模型本身没变，但它的行为变了。

你换了 prompt，它就换了风格——就像演员换了剧本，演出来的感觉也跟着变了。

这也是为什么我们说：

提示工程，其实就是“用上下文去引导模型的行为” 。

而这种“被引导后的行为”，跟你用相似数据去微调模型（fine-tune）的效果，其实很像。

通俗来说：

📌 few-shot 没干啥 gradient descent 干不了的事。

✅ 实用建议时间！

如果你手头没有很多数据、也不想费劲微调模型，
那 few-shot 是你目前最有效的武器——性价比超高。

few-shot 的效果也会边际递减。

一开始加几个例子可能提升明显，
但你再加到十几个、几十个，效果未必会继续提升，可能还会让模型“思路卡壳”。

所以——

如果 few-shot 已经给不出你想要的效果，或者你在 prompt 里写了大半页纸，它还是答得四不像，

那就老老实实考虑我们第 5 章讲的那些硬核手段吧：

👉 微调（SFT）、强化学习调优（RLHF）之类的大招该上场了！

7.2 工作效率谁更强：一颗 10 瓦的人脑 vs. 一台 2000 瓦的计算机

人类的大脑，只需要10瓦电，就能保持清醒——比如现在你能坐在这儿读这本书，全靠它这颗“节能神脑”。

与此同时，一台用于 AI / 机器学习的高端工作站呢？
轻轻松松就能耗掉 2000瓦的电力。

如果你要运行当下那些“大得离谱”的大型语言模型（LLM），用的是那种顶配服务器，那功耗直接飙到：

10,000 到 15,000 瓦！

也就是说，从能耗角度来看——
让一个大模型干活，可能比让你自己动脑还要多耗1500倍的电！

（环保战士听了直摇头）

你可能会想：那我们人类是不是该为自己的“节能高效”鼓掌？

没错，这一点是我们进化史上的骄傲，毕竟——

只靠几块吐司的热量，大脑就能跑一天的思考量，这谁不服？

但等等，别高兴太早， “效率”可不光只有“省电”这一种指标。

在某些方面，机器才是真·效率怪兽。

我们在图 7.5 里会展示：
人类和机器在不同“效率类型”上的强项和短板，看看究竟谁在哪方面更能打。

7.2.1 电力消耗：AI 再强，也得插电

“电力”是决定 LLM 成本的一个关键因素，不管你是搞训练的，还是只用它来跑推理，都逃不掉电费单。

虽然各家厂商都能给你报价，但你永远不知道他们真实的成本是多少——
他们可能赔本赚吆喝搞市场占位（俗称“亏钱换未来”），
等你依赖上了，说不定哪天就悄悄涨价，来个“刺客电费”。

更有意思的是：

有些科技巨头已经准备自己造小型核电站，
以备未来自家数据中心的大模型们能“不停电、随便卷”。

这意味着，大模型未来只会越来越大、越来越耗电，
但他们的价值可能也大到能撑起一个发电厂，听着是不是又疯又酷？

当然，这也提醒我们：

电力容量可能先出问题

🧠 总结一句话：用大模型搞大场面，别忘了先算电费表。

7.2.2 响应时间、扩展能力、在线率：AI 不睡觉，人得打卡

说起机器比人强的地方，以下三点必须拿出来吹一吹：

🚀 响应速度（Latency）

你问，它几乎立马答，0.几秒响应。你问人类？先得看他在不在工位。

🧱 可扩展性（Scalability）

人类想从1人扩到1000人，得招人、培训、发工资，还可能罢工；
大模型？起1000个副本就完了，点几下部署就能上。

🌐 可用性（Availability）

大模型 7x24 在线，永不请假，
人类？凌晨三点还在写报告的基本都在医院。

不过，这种“反应快+不下线”的属性，也带来一个小问题：

如果你还要人来“审核输出”，那你又得配一套“人类班表”，才能真的享受到 AI 的“全天候”优势。

🧠 总结一句话：AI 能做到“秒回消息”，但想用好，还得人来兜底。

7.2.3 持续优化：AI 不会进化，得靠你喂它升级包

还记得我们在 7.1.1 提过，大模型自己不会“变聪明”这事吗？

现在我们继续深挖这个痛点：

❌ LLM 不会“越用越好”

它不会像你一样做完一次、回顾复盘、吸取教训。
哪怕你喂它一百万个 prompt，它还是原来的那个“大语言学傻瓜”。

所以，要想让它用得越来越顺手，必须有人类参与：

优化提示词（Prompt）设置新的训练方案把失败的案例找出来，总结模式再优化

而且，提升 LLM 的效率并不是简单地升级到更新的模型，或者“换个大点的”。
你还需要做这些扎实的“幕后工作”：

搭建日志系统，记录输入、输出、模型表现；做数据回溯，搞清楚哪一类问题它经常答得不靠谱；像我们第 5.5.2 节提到的 DSPy 框架，就是专门干这个的。

📱 “Emoji 危机”来了！

想象一下，你一开始训练的模型用得好好的，结果——
Z 世代的熊孩子突然在消息里乱加各种新 emoji，
🤡👻🛸🧠🔋🦄🌚💥（你认得几个？）

结果你的模型懵了：“这是什么黑话？”
它之前根本没见过这些符号，自然就处理不了。

怎么办？

第一步，写段代码：识别 emoji，把它们转换成文字描述，比如
💥 → “爆炸状表情，通常表示突然或强烈的情绪”。

这当然不是万能的，但这就是工程实践：测试 → 调整 → 验证。

这也说明了： “全部交给大模型，彻底不写代码”是不现实的。

🔄 数据漂移（Data Drift）是必然的！

所谓“数据漂移”，就是现实世界的数据使用方式会变，
而你训练时的数据，早就跟不上这个变化节奏了。

Emoji 只是最明显的一种，
除此之外，还有：

新词的出现（比如“甄嬛体”）；老词的新用法（“懂王”以前可不是褒义词）……

这就要求我们：

定期收集新数据；给模型做微调；或者在 prompt 中补充定义，让它“临时学一课”。

🧠 总结一句话：世界在变，模型得跟上；不然它再强，也只是个“过去式”的智能体。

7.3 大语言模型不是“世界模型”

你可能经常发现，大语言模型（LLM）能讲出一些听起来非常像真的世界知识：
历史事件、物理常识、心理反应，甚至八卦段子都能信手拈来。

于是你可能会下意识地以为——

“哇，它懂好多，简直跟真的知道世界运转规则一样！”

但抱歉，让我们泼一盆冷水：

语言模型并不真正“知道”这个世界，它只是能“顺着话往下说”。

来，我们举个简单例子：

🧣**“如果你告诉某人他们的毛衣很丑，会发生什么？”**

作为人类，你立刻可以脑补出各种场景：

对方会尴尬；气氛会变冷；如果这是在圣诞节聚会上，说不定那毛衣本来就是参赛用的“丑毛衣冠军”！

你不需要真的看到那件毛衣、真的开口说话、真的在场——
你就能在脑中构建一个“毛衣社交场景模拟器” ，然后得出一个结论。

这是因为你有“世界模型”：
你理解人的情绪、理解社交情境、理解讽刺和幽默——这些都能在你的大脑里即时“推演”。

🧠 但是 LLM 呢？

LLM 不能“先想后说” ，它唯一能做的“思考方式”，
就是不断地生成文字 —— 换句话说，它的“思考=说话”。

在它的世界里：

“我要想多一点，那我就得说多一点。”

图 7.6 就是一个典型例子：

模型一开始唠唠叨叨地分析毛衣的颜色、质地、用途，
最后终于得出一个“你穿得真不错”的温柔结论——
但你能看出来，它不是在“理性判断”，它是在“字数换智力”。

⚠️ 小心！当我们说“模型在思考”时，其实只是它在“计算”

严格来讲，“思考”这个词用在 LLM 身上，是一种极不准确的“人类化幻想” 。

更准确地说是：

它不是在“思考”，而是在“计算下一步说啥最合适”。

比如：

输出10个token

换句话说：

LLM 所谓的“多想点”，本质上就是“多写点”罢了。

🧠 总结一下：

人类可以在脑子里构建一个世界，预测不同变量的影响。LLM 不能，它只能顺着词往下生成，看起来像是懂了，实际上是“拼词接龙”。

所以下次听到有人说：

“哇，这个大模型在思考！”

你就大大方方纠正他：

“不，它只是在用更复杂的方式算下一个词而已。”

说白了：大模型“不会计划”，只会“边说边装作在计划”

我们再来看个典型场景：

大模型要“计划”一件事时，它必须一边“写”一边“想” 。
换句话说，如果它不输出文本，它就仿佛“啥都没发生”。

这就像一个人脑袋里没剧本，只有嘴上有话才算“进入角色”。
所以，如果你不让它“说出来”，它就无法“思考过程”或“预先计划”。

为了解决这个问题，我们搞出了一个很火的技巧：

🧠 CoT 提示词：咱们一步一步来！

这种方法叫 Chain-of-Thought（CoT）Prompting，中文叫“思维链提示词” 。

操作也很简单：在 prompt 里加一句魔法咒语，比如：

“让我们一步一步地思考这个问题。”

你会发现，只加了这句话，大模型的表现往往就能立刻变聪明一点，
步骤清晰、逻辑更顺、有条有理，仿佛突然开窍了一样。

但问题也来了：

为啥它就因为你说了“一步一步”就表现好了？这不是挺玄的吗？

🧨 但别高兴太早，CoT 也容易翻车

就算用了思维链提示，大模型还是会犯错，比如：

漏掉中间步骤；算错数字；推理逻辑不通……

简直就像那个认真分析了半天却把“鸡兔同笼”解成“火星种植”的学生。

🔍 那为什么 CoT 有时还是会让模型表现更好？

我们可以从几个角度来分析：

✅ 1. 是不是“算得更多”，就“表现得更好”？

还记得第3章我们讲过的 transformer 和注意力机制（attention）吗？

大模型接收的输入越长、输出的文本越多，
transformer 就需要做更多计算。

也就是说，当你让它“分步骤输出”时，它等于自己“多烧点脑细胞” ，可能就多思考了一点点（其实就是多算了）。

但——如果它真的有“世界模型”，
它应该能在“脑子里”先计划好，不需要靠“多说点”来强行“思考”。

✅ 2. 也许只是因为它看过太多类似教学材料

大模型的行为，和它见过的训练数据有关。

而在训练数据中，像“Let’s think step by step.”、“我们先从第一步开始”这种说法，
往往出现在教育内容、教程、范文、优秀回答里。

所以它可能只是学会了“这种说法=好学生”，于是你一提示，它就更认真“背模板”了。

换句话说：

CoT 并没有让模型掌握新技能，
只是帮它从“模糊记忆库”里，抽出更像样的内容罢了。

⚠️ 注意！“世界模型”这个词也容易误解

当我们说一个系统有“world model（世界模型）”时，到底是啥意思？

其实学界也没统一说法。不同人说的“世界模型”可能完全是两码事。

所以在聊这个话题前，最好先把定义讲清楚，
不然你说“世界模型”是能理解现实，我说的是能模拟物理规律，
结果两边聊得热火朝天，根本不是一个频道。

这类术语混乱的问题，我们会在本书最后两章再深入吐槽一波。

🧪 那“世界模型”就没戏了吗？别急，有人在搞！

虽然目前 LLMs 还没有真正意义上的世界模型，
但有一些研究者已经在尝试把“世界建模”能力塞进 AI。

比如 David Ha 和 Jürgen Schmidhuber 在 2018 年做的一个项目：
👉 worldmodels.github.io

他们设计的系统能在模拟游戏中大幅提升表现，比当时流行的方法强多了。

也有研究在搞：

用 LLM 来充当世界模型

给 LLM 植入简易世界模型

不过目前这些方法都还很初期，适用于某类特定任务，
距离人类那种“通用世界理解能力”还远得很。

🧠 总结一句话：

大模型不会“闭嘴思考”，它只能“边说边想”；
“CoT 提示”有点用，但别太信；
真正的“世界理解力”，还得靠人类慢慢喂养，不是一句 prompt 能搞定的事儿。

7.4 计算的极限：该难的事还是难

有些人担心所谓的“AI 暴走”：
某种超级智能的 AI 会突然变得无所不能，不但能秒解人类永远解不了的问题，
而且它的目标根本不和人类对齐，甚至还可能不怀好意。
最吓人的是，这种 AI 还能不断“自我进化”，最终变得像神一样强大，连我们人类都看不懂它在干嘛。

这类想法在网络上炒得很热，仿佛 GPT 再升几级就能统治地球。

关于这个话题的伦理和哲学问题，我们会在最后几章再慢慢聊。
但现在，我们先来从技术的角度讲点实话：

现实中，AI 还远远没有“脱缰”，因为——它受限于计算复杂度这堵墙。

🚧 什么是“计算复杂度”？先来一小段“程序员通识课”

在计算机科学里，我们很在意一个问题：

“数据量变大时，程序运行时间会涨多少？”

理想情况下，如果你把输入数据翻倍，程序运行时间也只是翻倍，
这叫 线性复杂度（linear complexity） ，用数学语言写成：O(n)。

但这只是童话般的美好愿望，大部分现实问题远比这麻烦。

我们通常用“大O符号”（Big-O Notation）来描述算法的复杂度增长情况：

复杂度等级	数学表示	直观例子（原本要2天）换成4个输入后可能变成…
线性：`O(n)`	就是一倍一倍来	4天，刚好翻倍，很理想
对数线性：`O(n log n)`	有点增长，但不太离谱	约4.4天，还能接受
平方：`O(n²)`	数据一多就爆炸	8天，感觉不妙
指数：`O(2ⁿ)`	想都别想	程序跑完前可能人类都灭绝了 😵

你可以想象：随着数据量变多，图表的曲线会变得越来越陡。

也就是说：

数据一多，复杂度高的算法就会卡成 PPT，动弹不得。

🤖 那 LLM（大语言模型）属于哪个级别？

在实际运算中，LLM 对输入长度为 n 的文本（比如 token 数）进行处理时，
它的复杂度大约是 O(n²)，也就是“平方复杂度” 。

这代表啥？
比如你现在让它处理 1000 个 token，它花 1 秒钟；
那你输入 2000 个 token，它可能就得花 4 秒钟！

所以我们可以很确定地说：

只要某个任务本身的最低计算复杂度就高于 O(n²) ，
那么 LLM 是不可能“高效”地解决它的，因为它天生就吃不动！

⚠️ 小提醒：我们这里不是在讲算法研究生课程

我们这里只是让你建立一个“计算瓶颈”意识，
没打算拉你深挖 NP-完全问题和图着色定理。

如果你想深入搞懂这些复杂算法，可以去看看这本书：
📘《Grokking Algorithms：程序员的算法通识手册》，作者是 Aditya Bhargava，非常适合初学者。

❗不可能超越复杂度的天花板

再举个例子：

假设有一个任务，它的计算复杂度是 O(n³)（立方级），
而你手里的大模型最高只能跑到 O(n²)，那不就尴尬了吗？

你不能指望一个二年级的小学生去解大学数学竞赛题。
如果 LLM 真能跑过这道题，说明我们对这题的复杂度评估可能是错的——逻辑自洽就崩了。

所以结论是：

LLM 再强，它也不能魔法般解决那些“超出它能力上限”的难题。

📦 表 7.1：一些现实世界中的“超难任务”

虽然表 7.1 的具体内容还没列出来，但我们可以先剧透几个典型例子：

任务	常见复杂度	为什么难？
包裹投递路径最优化（TSP）	NP-hard / 指数级	输入一多，可能连明年春节都安排不完
航班重新排班	`O(n³)` 或更糟	航空公司永远的“噩梦调度器”
资源分配（人、货、机器）	常超 `O(n²)`	变数太多，方案太杂，爆炸太快

这些问题共同特点是：组合太复杂、变量太多、计算太烧脑。
不是 LLM 不努力，而是数学不给面子。

🧠 总结一下：

计算复杂度

除了“算法多复杂”，我们还得关心“它属于哪个复杂度圈子”

除了计算时间的多少，算法还有一个非常关键的“圈层概念”——
那就是它属于哪个 复杂度类别（complexity class） 。

你可以把它理解为“这类算法到底都能解决哪些事”的分类标准，
就像江湖门派：你是武当派还是少林派，不是看你拳头多快，而是看你内功修到哪一层。

⚔️ 最出名的两个复杂度门派

P类问题（Polynomial，简称 P）

NP类问题（Nondeterministic Polynomial）

不是 Not Polynomial（非多项式）

“非确定性多项式时间”

答案容易验证，但不容易找到。

比如“给一堆城市画最短路线”这个问题——你要走一遍才能知道是不是最短的。

🧠 LLM 在这个“复杂度宇宙”里处于什么等级？

现在，重磅来了：

研究者 William Merrill 和 Ashish Sabharwal [14] 做了一个很酷的发现：

大模型解决问题的能力，跟它“中间步骤里生成了多少 token”是正相关的。

简单翻译一下：

超级小的门派

但——如果我们让 LLM 生成更多中间步骤（比如用 Chain-of-Thought 提示词一步步“思考”），
它的处理过程会逐渐“晋升”，最终能达到 P 类问题的能力范围。

不过！即便如此，它还是只能在 P 这个门槛以下徘徊，
永远打不过 NP 和更难的问题！

📊 图 7.7：复杂度江湖门派图

可以想象，图 7.7 就是把这些复杂度等级像蛋糕一样分层：

越往上，问题越复杂 → L → P → NP → EXP（爆炸复杂度）→ ???

而我们的 LLM，就像一个只能跳两层楼的小怪兽：

它天生只能待在 L 区域；加点“语言链提示”后能努力跳上 P 层；但再往上？👋 抱歉，它跳不上去了。

🧠 小结：

P 类问题

NP 级或更高难度任务对它就是天花板+铁盖子

理论上的上限

这下可惨了：复杂度类别不是说“跑得快”，而是“能不能跑”

刚才我们讲到复杂度类别。问题是，这事儿比“跑得慢”还惨。

为什么？因为：

复杂度类别（complexity class）说的不是你跑多快，而是你有没有资格跑。

举个例子：

如果一个问题是 O(n³) 级别的（比如航班调度、路径优化这类），
你得让模型生成 n³ 个 token 才能解出来；
但模型生成 token 本身也是 O(n²) 的复杂度。

所以你相当于干了：
O(n³) × O(n²) = O(n⁵) 的操作！

简直是自己搬砖砸自己：一边是任务复杂，一边是处理能力有限，最终变成了计算爆炸现场。

而这还不包括训练模型、调 prompt、让模型别出错等隐性成本。
所以我们说——大模型干复杂活，纯靠蛮力是真扛不住的。

7.4.1 模糊问题，就该配模糊算法

说到这，你可能已经开始怀疑人生了：

“那是不是 LLM 根本派不上用场？”

别灰心，其实——LLM 的强项压根就不是精确计算！

像所有机器学习系统一样，大模型最适合“模糊问题” ：
那些你很难用一句话说清楚对错的问题。

比如：

“苏西这封邮件是什么意思？”“约翰在这条消息里是不是在暗示什么？”

这些问题的答案，本身就是带感情色彩、不确定性的，容错率很高。
你就算回答得不那么完美，人类也不会翻脸，顶多再追问一句。

人类语言本身就模糊、含糊、绕弯、啰嗦，
正好跟 LLM 的模糊特性相得益彰，天作之合。

所以文本总结、情绪判断、写初稿、润色检查……
这种**“差不多就行”**的工作，才是 LLM 的主战场。

7.4.2 复杂问题，也能“差不多就行”？

我们也要反过来讲点公平话：

不是只有 LLM 解不了复杂问题，人类也不行。

以我们前面提到的旅行商问题（TSP）为例：
快递小哥想找一条最短的送货路线，不重复，不走回头路。

这类问题是 NP-hard 的，换句话说：

全世界最聪明的人也只能解个百八十个点，再多就烧脑烧电烧命。

那现实中我们是怎么解决的？

近似算法

O(n²)

“够用就行”，也能跑起来。

LLM 同样可以用于这类“差不多就行”的策略，只要你别指望它给出完美解法。

♟️ 棋类游戏能说明啥？

以国际象棋为例，它的难度比 NP-hard 还高。但 GPT-3.5 也能下得有模有样，甚至能赢真人。

那是不是说明 LLM 可以“近似解决”超复杂问题？

也不完全是：

有可能是被“特别训练过的”

网上一大堆

结论是：

它是在“看过一万局象棋”的基础上，复现了差不多的策略，
而不是从头“学会怎么赢”。

💡 总结一下：如何用好 LLM？

✅ 最适合的场景是：

重复性高

变化小

容错率高

结果可以“差不多”就行。

比如：

文本总结初稿撰写翻译润色简单问答基础客服

这类“轻任务”，LLM 是黄金搭档。

🕹️ 再补一个例子：围棋 AI 的“超级战神模式”也有盲点

围棋是几十年来 AI 研究最难攻克的堡垒之一。
虽然现在 AlphaGo 和一票 AI 已经可以击败顶级棋手，但——

如果你写个奇葩 AI，专门下离谱棋、骚操作、假动作，
它可能就能干翻“超级 AI” ，但反而被普通人轻松碾压。

这说明了什么？

在“对抗性环境”里，人类在处理“突发情况”上，依旧完胜 AI；LLM 也一样：它没法很好地应对真正陌生、动态变化的敌人或场景。

🧠 最终结论：

大模型不是天才数学家，也不是宇宙逻辑引擎。
它是一个大词库里的模糊预测机。
把它放在合适的位置，它就是效率之神；
让它扛起严谨推理，它只会给你复制粘贴风格的“错得像对”。

总结：别神化大模型，它是你效率工具，不是宇宙神明

大模型比人强的一点：就是“规模效应”拉满！

人类更擅长“突发状况”

人类的常识、直觉、临场应变力

只要你给的大模型任务和它训练时见过的差不多，它表现就会很靠谱。

重复性高、模板感强

最有效的“教大模型新技能”的方法：不是砸钱训练，而是巧用 prompt！

大模型不会自己进化，不会越用越聪明。

需要精确答案的算法问题

它最擅长的是“模糊问题”

🎯 一言以蔽之：

LLM 不是万能选手，但它是模糊世界里的全能工具人。
用得对，它就是你的超级助理；用错地方，只会把你坑惨。