掘金 人工智能 前天 17:28
让流浪汉都能学会的大模型教程——关于大模型的误解、局限和惊人本事
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入剖析了大模型与人类在学习方式上的根本区别,指出大模型依赖海量数据和计算,而人类则通过交互和理解进行学习。文章强调大模型并非真正“思考”,而是“计算”,并解释了其局限性,如计算复杂度限制和无法实现真正意义上的自我进化。同时,文章也列举了大模型的优势,包括知识面广、写作辅助和高性价比,但也指出了其训练成本高、缺乏变通和易被利用等缺点。最后,文章建议将大模型应用于模糊性高、容错率高的任务,并强调了提示词工程的重要性,帮助用户更清晰地认识大模型的定位与应用。

🧠 人类与大模型的学习方式存在本质差异:人类的学习是交互式、理解式的,伴随顿悟和误解;而大模型是通过海量数据和梯度下降等算法进行“预测下一个词”的计算过程,本质上是调整参数,而非真正的理解和自我进化。

🤖 大模型并非“思考”,而是“计算”:它们的工作方式是边计算边输出,不存在人类意义上的内心戏或预先计划。所谓的“思考”只是其生成文本的过程,其能力上限受限于计算复杂度,例如平方复杂度(O(n²))限制了其处理长文本或复杂问题的效率。

💡 大模型的优势与劣势并存:其优势在于知识面广、能提供写作辅助、成本相对较低且可24/7工作;劣势则包括训练成本高、缺乏人类的变通和“看眼色”能力、容易被误导利用,并且无法真正“越用越好”或实现自我进化,需要持续的人工干预和优化。

🎯 大模型最适合处理“模糊问题”:例如文本总结、情感判断、内容润色、简单问答等,这些任务的答案具有不确定性,容错率高,与大模型的预测性、模糊性特质相契合,是其发挥价值的主战场。

🚀 提示词工程是提升大模型效能的关键:通过精心设计的提示词(Prompt Engineering),可以低成本地引导大模型模仿特定风格、完成特定任务,而无需重新训练,是初学者最有效的工具。

本章要聊的事:

感谢 ChatGPT 的横空出世,现在全世界都知道“大模型”这玩意儿有多牛了。不过,知道是一回事,误解也是一大堆。

有人觉得大模型天天在偷偷“自我进化”,像钢铁侠那样边战斗边升级;
有人觉得它比人聪明,迟早会取代所有人类工作;
还有人甚至开始担心:“天哪,AI 会不会统治地球啊?”

咱们不是来当乐观派也不是来当杞人忧天派的——
我们承认:大模型确实值得认真对待,它确实有一些你不得不重视的能力和问题,
不过吧……很多你在网上听到的传言,可能就像小时候流传的“喝可乐会融化牙齿”一样,夸张得不行。

这一章我们要聊的,不是吓唬你、也不是捧杀它,
而是从底层机制的角度,给你讲清楚:大模型到底是怎么工作的?哪些传言是真的,哪些只是误会?

我们会聊三件事:

    “人和大模型的学习方式,天差地别”
    人类嘛,看几眼教程、踩几个坑就能掌握新技能;而大模型,默认是一座“死知识的仓库”,不自己长进,除非你给它再喂一大波新数据+新训练。“别再说它‘在思考’了,它其实是在‘算’”
    人类说话前会想一想,大模型不一样,它边算边输出——它的“说”和“想”是一回事,根本没有内心戏。“大模型不是超人,它也有‘算不过来’的时候”
    背后的计算复杂度、算法原理,其实早就为它画好了边界。别指望它啥都能搞定,科幻片看多了容易误伤智商。

这些点听起来好像有点“程序员味儿”,但你别怕,咱会用最通俗的方式讲清楚,
讲完你就知道:什么时候该用大模型,什么时候还是让人类自己上吧!

7.1 人类学习 vs 大模型:谁学得快?谁学得傻?

虽然我们之前已经隐隐约约地聊到过这个话题,但现在是时候摊牌了:
大模型的“学习”和人类的学习,压根不是一回事!

别看现在大模型说话像模像样,还能写文章、回答问题、讲笑话,甚至模仿莎士比亚——
听起来是不是有点像它真的“会学”了?
甚至网上还有一大票人信誓旦旦地说:这货已经开始自我进化了!
拜托,冷静点——
大模型和人类之间,差的不是一丁半点,而是宇宙级的差距。

理解这个差距非常重要,因为它会直接影响你在实际使用时的判断:
什么时候该用人?什么时候该放AI上场?人和AI怎么搭配才不内耗?

先说说大模型是怎么“学”的?

如果你翻回去看第四章,我们讲过,大模型的“学习”其实是通过一种叫做梯度下降(Gradient Descent)的算法,在海量文本中预测“下一个词是什么”。
然后第五章我们又讲了它的
微调(比如 RLHF)
——再把模型调一调,让它学会更“讨人喜欢”的回答方式。

但说到底,它的“学习”过程就是调整上亿个参数,靠数学公式一点点磨出来的——
跟人类边听边学、边问边懂、脑子里有顿悟、有误解、有奇思妙想的那种“学”,完全不一样。

来个对比:大模型学语言 vs 小朋友学说话

你见过哪个孩子从来没人跟他说话、也没看过书、没刷过动画片,结果突然就会说话了?
当然没有啊!

语言的学习,本质上是一种“交互”,我们靠听别人怎么说、模仿他们的表达,逐渐掌握语言的结构和用法。
而大模型是靠把几十亿文档“塞”进它的胃,然后用公式预测下一个词该是什么。
你让它像孩子一样先学“妈妈”“吃饭”,然后一步步构建语言理解?不好意思,它一上来就是硬核读本,直接吞下整本百科全书。

数据量上的悬殊差距:

我们拿一个“超级能聊的小孩”来对比一下:

再说一次:几千亿 vs 两千四百万。
这就好比——人类是喝勺子汤,大模型是对着消防水龙头狂灌。

问题是:这么灌也没灌出理解来,你说这效率……是不是有点感人?

学习顺序也不同:人是“搭积木”,大模型是“一口吞”

我们学语言是有顺序的——从“妈妈”“爸爸”到“不要”“吃饭”,
再慢慢学颜色、数字、再到抽象概念,像搭积木一样一层层来。

但大模型不是,它一上来就是海量词汇堆在一起,然后按“出现频率”来学习,
你可以想象它第一次“学习”的时候,就可能看到我们这本书的全文,直接照单全收。

这种方式虽然在“速度”上看起来很猛,但会让它在概念之间建立深层联系时有些吃力。
因为它没有先学“小朋友的世界”,而是直接被丢进了“百科全书宇宙”。

不过人类打不过大模型的地方也有:它能并行、能放大

别忘了,大模型不是靠一台电脑苦哈哈学完这些词的,
而是成千上万台机器同时训练,就像数码版的“修仙闭关大会”。

更重要的是——你不可能雇一万个大学生去读所有报表、合同、邮件,然后生成分析报告、找出潜在风险、回答政策问题。
但你可以让一万个大模型实例同时干这些活儿,还不喝咖啡不摸鱼!

小结:人类 vs 大模型的“学习能力”对比图(见图 7.1)

结合我们前几章的内容,我们可以大致总结一下:
大模型在数据量、速度、并行处理方面碾压人类;
但在人类那种理解力、学习效率、抽象联想能力上,还差着一大截。

所以到底什么场景适合用大模型?什么又该交给人类处理?
图 7.1 会帮你一目了然地看懂这个选择题。

大模型的优点,还是有那么几条的:

不过大模型也不是十全十美的,下面是它的一些缺点:

总之,大模型既是“AI小天才”,也是“听话的大孩子”。它有它的强项,但也有明显短板——
别把它当成“完美员工”,更别幻想它能自学成才、一路开挂、拯救世界。
它更像是你雇来的一位高效、但需要你指导的“实习生”AI。

7.1.1 大模型能不能“修炼成仙”?——关于自我提升的幻觉

人类,是可以自己“变强”的。
你遇到一个问题,可以钻研、可以反思、可以找资料、换思路,最后摸索出一个更好的解决办法。
这就是我们常说的“成长”“进化”“顿悟”。人类就靠这个从石器时代一路走到了AI时代。

那大模型能不能也这么来一套自我升级的套路呢?

在 AI 圈子里,其实一直有人很认真地想搞这么一件事——
听起来很简单、很“自洽”,流程是这样的:

    先训练一个大模型(就像你培养一个初级学徒);然后让它自己生成一批“新数据”(相当于自编自导自演一波);接着用这些新数据来继续训练它自己(好比一个人看自己写的东西,再不断修订);如此反复,直到变成“超级模型”。

是不是听着很像“AI 修炼内功,一路自学成仙”?
但是——现实啪啪打脸:这套路根本行不通。

为啥不行?我们搬出“信息论”来讲讲道理

信息论是干嘛的?
它告诉我们,信息是有限资源,就像你一锅粥里只有那么多米,倒来倒去也煮不出牛排来。

你最开始训练大模型用的那一堆数据,信息量是固定的。你能让模型“吸收”这些信息,模拟出一个大概的分布,但:

👉 当你让它自己“生成新数据”时,其实它不过是在照猫画虎、模仿原始数据的风格
而且这个模仿还不完美,甚至带点噪音和误差。

所以你再拿这些“模型自言自语”的内容去喂它自己,效果只会越来越差,甚至越来越“蠢”……

总结一句话就是:
它自己造的“新知识”,其实是“旧知识打折重印版”,还可能是盗版。

怎么破?只有一个办法:靠外援!

你要让模型真正变强,每一轮必须喂它新的、来自外部世界的信息——比如最新的科研论文、人类写的新代码、现实生活中发生的新事。

否则你就陷入了一个“AI 自嗨循环”:

自己骗自己 → 用假数据训练自己 → 更容易骗自己 → 最后连自己都骗不了……

这事也牵扯到很多人对“AI 会毁灭人类”的担忧

有人担心,大模型会越变越聪明,最后变得比人类还聪明一万倍,搞得我们连它在干啥都看不懂,更别说控制它了。
这种想法的核心是相信:大模型会自己寻找工具、自主收集数据、突破各种限制,不断“强化自己”。

但说到底,这种担心其实忽略了一个最朴素的事实:

所有技术都存在瓶颈,大模型也不例外。

比如,信息越挖越难挖、收益越来越低(也就是著名的边际效应递减),这不是什么神秘限制,而是自然规律。

所以,大模型的“自我修炼”是有限的,不加干预,它成不了孙悟空。

图 7.2 就描绘了这种**“AI 自我提升”不可持续的天花板**,感兴趣的朋友可以研究一下。

技术改进的极限:连摩尔定律都开始“吃老本”了

说到技术发展遇到瓶颈,最经典的例子之一就是——摩尔定律
这条“定律”大致意思是:芯片上的晶体管数量每隔18到24个月就翻一倍。

听起来是不是有点像科技界的“内卷标杆”?确实,它预测芯片发展速度还挺准的。

但!你要注意,现在我们已经开始看到这玩意儿进入了传说中的 S 型曲线,也就是边际效益递减期

晶体管的数量虽然还在涨,但翻倍的速度没以前那么快了,
更重要的是:整个系统的性能也开始进入瓶颈期了

也就是说,芯片上堆再多晶体管,性能也不一定就能再翻倍,其他瓶颈也开始冒头。
比如什么呢?

👉 GPU 昂贵得离谱,配套的电力、散热、数据中心也烧钱得恐怖。
你不能指望只靠“加晶体管”就能无穷无尽地让大模型变强——连摩尔定律都不信这个邪了

别用“人类标准”来评判大模型,它不是人类!

这年头,你是不是经常看到那种新闻标题:

“某某大模型考过了医学院入学考试(MCAT)!”
“大模型竟然通过了律师资格考试(Bar Exam)!”
“GPT的IQ高达145,比你聪明!”

听起来很炸裂,感觉大模型下个月就能当你领导了。

但冷静下来想想,这些“成绩”真的能说明它比你聪明吗?未必!

因为——大模型不是人,它的“聪明”方式和你压根不一样!

首先,它可能在训练时就见过很多类似题目。你刷100遍真题也能考满分,对吧?
其次,这些测试本身是给人类设计的,不是用来测试AI的。

IQ 测试、MCAT、司法考试,这些题目是建立在人类行为统计上的,
它们是“相关性强”,但不是“因果关系”。

举个栗子 🌰:

🩸 血糖测试 是“因果”——你血糖太高太低,身体会出问题,这是我们生理上懂得很清楚的事情。

🧠 IQ 测试 是“相关”——高IQ 和某些好结果(比如学业、职业)之间有关联,
但它并不是说“你 IQ 高 = 你就能做成所有事”。

它只是一个经过多年打磨的工具,
我们知道答某些题的人,通常能在现实中做得不错,
但我们不清楚这些题到底有没有测出“真正的聪明才智”。

所以结论是:

别光看大模型能考多少分、拿什么“证书”,就以为它已经“成人成神”了。
那只是一些指标,不是它能力的全部、也不是它理解世界的证明

人类的智慧是立体的,有情感、有直觉、有顿悟;
大模型只是把世界拼成了“预测下一个词”的概率矩阵。

它不是你对手,更不是你上级,
它是你手里的超级计算器 + 写作助手 + 萌萌哒“数据鹦鹉”🦜——
关键是,你得知道怎么用它、啥时候别用它!

靠“外挂”才能变强:外部信息对大模型的“加成”

虽然大模型自己没法修炼成仙,但人类早就给它配好了“外挂系统”。

比如:

这些例子说明:只要外挂挂得好,大模型确实能“变强一点”

但注意!这不代表它可以无穷无尽地自己升级。原因很简单:

这些外挂工具——比如物理模拟器、代码编译器、数学验证系统……
这些本身也是人类写出来的!

也就是说:大模型之所以能“变聪明”,本质上还是因为我们喂给它新的、更有质量的信息。

你要真想让它越来越强,得不断提升这些外挂工具,而这事儿……又回到了人类头上。
于是,另一个“经济瓶颈”出现了:

想让大模型实现“自我提升”,就得投入更多资源搞配套工具,
你以为是在升级AI,其实是你自己加班写外挂。

说到底:靠外挂是能提升,但别指望它永动机式狂飙,最后还是得我们人类来擦屁股。

7.1.2 小样本学习:教它几招,它就能上场?

小样本学习(Few-shot Learning),也叫上下文学习(In-Context Learning) ,是大模型界非常流行的一招。

这招怎么玩?

你不需要重新训练模型,而是在“提示词 prompt”里,直接塞几个示例告诉它:

“兄弟,看好了!你待会就按这个风格来答题!”

比如,你想让大模型扮演一个客服机器人,回答用户的问题。你可以给它这样的提示:

用户: 我的订单怎么还没发货?
客服示例回复: 您好,我们正在为您准备发货,预计明天发出,请耐心等待~

这就叫 One-shot learning(单样本) ,也就是给一个例子。
你要是给两个例子呢?那就是 Two-shot;再多点,就统称为 Few-shot(小样本)
但重点不是到底几个,而是“就给它几条看起来像模像样的范本”,让它“照猫画虎”。

这种方式非常实用,尤其是在不方便或不可能重新训练模型的场景中——
你可以用它来让模型模仿语气、学会格式、甚至调整内容风格。

这招其实就是提示工程(Prompt Engineering) 的经典玩法,
第 7.4 图展示了这个操作的具体样式,简直就是“教AI画画前,先给它看看范本”。

加点例子,大模型表现更靠谱?那它到底“学”了没?

在提示词里加几个例子,确实能让大模型在新任务上表现得更聪明。
这招好就好在:

但问题来了:这种“few-shot”方式真的算“学习”吗?

其实,它根本没“学会”,只是“照着你说的演了一遍”

少样本提示(few-shot prompting)不是训练

你没有动模型的任何一根神经(也就是参数 weight),模型的“脑子”还是原来的“脑子”。
哪怕你让它今天跑10万个提示词、明天跑100万个,到了后天,它还是那个它:

🧠 一滴进步都不会有。

除非你手动优化提示词,换更合适的例子,或者多加点参考,
否则它永远不会“自己变聪明”。

从这个意义上讲,few-shot 并不是真正的学习,它更像是“提词器”变高级了。

不过从另一个角度讲,它又有点像“在学习”

虽然大模型本身没变,但它的行为变了

你换了 prompt,它就换了风格——就像演员换了剧本,演出来的感觉也跟着变了。

这也是为什么我们说:

提示工程,其实就是“用上下文去引导模型的行为”

而这种“被引导后的行为”,跟你用相似数据去微调模型(fine-tune)的效果,其实很像。

通俗来说:

📌 few-shot 没干啥 gradient descent 干不了的事。

✅ 实用建议时间!

如果你手头没有很多数据、也不想费劲微调模型,
那 few-shot 是你目前最有效的武器——性价比超高。

few-shot 的效果也会边际递减。

一开始加几个例子可能提升明显,
但你再加到十几个、几十个,效果未必会继续提升,可能还会让模型“思路卡壳”。

所以——

那就老老实实考虑我们第 5 章讲的那些硬核手段吧:

👉 微调(SFT)、强化学习调优(RLHF)之类的大招该上场了!

7.2 工作效率谁更强:一颗 10 瓦的人脑 vs. 一台 2000 瓦的计算机

人类的大脑,只需要10瓦电,就能保持清醒——比如现在你能坐在这儿读这本书,全靠它这颗“节能神脑”。

与此同时,一台用于 AI / 机器学习的高端工作站呢?
轻轻松松就能耗掉 2000瓦的电力。

如果你要运行当下那些“大得离谱”的大型语言模型(LLM),用的是那种顶配服务器,那功耗直接飙到:

10,000 到 15,000 瓦!

也就是说,从能耗角度来看——
让一个大模型干活,可能比让你自己动脑还要多耗1500倍的电!

(环保战士听了直摇头)

你可能会想:那我们人类是不是该为自己的“节能高效”鼓掌?

没错,这一点是我们进化史上的骄傲,毕竟——

只靠几块吐司的热量,大脑就能跑一天的思考量,这谁不服?

但等等,别高兴太早, “效率”可不光只有“省电”这一种指标

在某些方面,机器才是真·效率怪兽。

我们在图 7.5 里会展示:
人类和机器在不同“效率类型”上的强项和短板,看看究竟谁在哪方面更能打。

7.2.1 电力消耗:AI 再强,也得插电

“电力”是决定 LLM 成本的一个关键因素,不管你是搞训练的,还是只用它来跑推理,都逃不掉电费单。

虽然各家厂商都能给你报价,但你永远不知道他们真实的成本是多少——
他们可能赔本赚吆喝搞市场占位(俗称“亏钱换未来”),
等你依赖上了,说不定哪天就悄悄涨价,来个“刺客电费”。

更有意思的是:

有些科技巨头已经准备自己造小型核电站
以备未来自家数据中心的大模型们能“不停电、随便卷”。

这意味着,大模型未来只会越来越大、越来越耗电,
但他们的价值可能也大到能撑起一个发电厂,听着是不是又疯又酷?

当然,这也提醒我们:

🧠 总结一句话:用大模型搞大场面,别忘了先算电费表。

7.2.2 响应时间、扩展能力、在线率:AI 不睡觉,人得打卡

说起机器比人强的地方,以下三点必须拿出来吹一吹:

🚀 响应速度(Latency)

你问,它几乎立马答,0.几秒响应。你问人类?先得看他在不在工位。

🧱 可扩展性(Scalability)

人类想从1人扩到1000人,得招人、培训、发工资,还可能罢工;
大模型?起1000个副本就完了,点几下部署就能上。

🌐 可用性(Availability)

大模型 7x24 在线,永不请假,
人类?凌晨三点还在写报告的基本都在医院。

不过,这种“反应快+不下线”的属性,也带来一个小问题:

如果你还要人来“审核输出”,那你又得配一套“人类班表”,才能真的享受到 AI 的“全天候”优势。

🧠 总结一句话:AI 能做到“秒回消息”,但想用好,还得人来兜底。

7.2.3 持续优化:AI 不会进化,得靠你喂它升级包

还记得我们在 7.1.1 提过,大模型自己不会“变聪明”这事吗?

现在我们继续深挖这个痛点:

❌ LLM 不会“越用越好”

它不会像你一样做完一次、回顾复盘、吸取教训。
哪怕你喂它一百万个 prompt,它还是原来的那个“大语言学傻瓜”。

所以,要想让它用得越来越顺手,必须有人类参与:

而且,提升 LLM 的效率并不是简单地升级到更新的模型,或者“换个大点的”。
你还需要做这些扎实的“幕后工作”:

📱 “Emoji 危机”来了!

想象一下,你一开始训练的模型用得好好的,结果——
Z 世代的熊孩子突然在消息里乱加各种新 emoji,
🤡👻🛸🧠🔋🦄🌚💥(你认得几个?)

结果你的模型懵了:“这是什么黑话?”
它之前根本没见过这些符号,自然就处理不了。

怎么办?

第一步,写段代码:识别 emoji,把它们转换成文字描述,比如
💥 → “爆炸状表情,通常表示突然或强烈的情绪”。

这当然不是万能的,但这就是工程实践:测试 → 调整 → 验证。

这也说明了: “全部交给大模型,彻底不写代码”是不现实的。

🔄 数据漂移(Data Drift)是必然的!

所谓“数据漂移”,就是现实世界的数据使用方式会变,
而你训练时的数据,早就跟不上这个变化节奏了。

Emoji 只是最明显的一种,
除此之外,还有:

这就要求我们:

🧠 总结一句话:世界在变,模型得跟上;不然它再强,也只是个“过去式”的智能体。

7.3 大语言模型不是“世界模型”

你可能经常发现,大语言模型(LLM)能讲出一些听起来非常像真的世界知识:
历史事件、物理常识、心理反应,甚至八卦段子都能信手拈来。

于是你可能会下意识地以为——

“哇,它懂好多,简直跟真的知道世界运转规则一样!”

但抱歉,让我们泼一盆冷水:

语言模型并不真正“知道”这个世界,它只是能“顺着话往下说”。

来,我们举个简单例子:

🧣**“如果你告诉某人他们的毛衣很丑,会发生什么?”**

作为人类,你立刻可以脑补出各种场景:

你不需要真的看到那件毛衣、真的开口说话、真的在场——
你就能在脑中构建一个“毛衣社交场景模拟器” ,然后得出一个结论。

这是因为你有“世界模型”:
你理解人的情绪、理解社交情境、理解讽刺和幽默——这些都能在你的大脑里即时“推演”。

🧠 但是 LLM 呢?

LLM 不能“先想后说” ,它唯一能做的“思考方式”,
就是不断地生成文字 —— 换句话说,它的“思考=说话”。

在它的世界里:

“我要想多一点,那我就得说多一点。”

图 7.6 就是一个典型例子:

模型一开始唠唠叨叨地分析毛衣的颜色、质地、用途,
最后终于得出一个“你穿得真不错”的温柔结论——
但你能看出来,它不是在“理性判断”,它是在“字数换智力”。

⚠️ 小心!当我们说“模型在思考”时,其实只是它在“计算”

严格来讲,“思考”这个词用在 LLM 身上,是一种极不准确的“人类化幻想”

更准确地说是:

它不是在“思考”,而是在“计算下一步说啥最合适”。

比如:

换句话说:

LLM 所谓的“多想点”,本质上就是“多写点”罢了。

🧠 总结一下:

所以下次听到有人说:

“哇,这个大模型在思考!”

你就大大方方纠正他:

“不,它只是在用更复杂的方式算下一个词而已。”

说白了:大模型“不会计划”,只会“边说边装作在计划”

我们再来看个典型场景:

大模型要“计划”一件事时,它必须一边“写”一边“想”
换句话说,如果它不输出文本,它就仿佛“啥都没发生”。

这就像一个人脑袋里没剧本,只有嘴上有话才算“进入角色”。
所以,如果你不让它“说出来”,它就无法“思考过程”或“预先计划”。

为了解决这个问题,我们搞出了一个很火的技巧:

🧠 CoT 提示词:咱们一步一步来!

这种方法叫 Chain-of-Thought(CoT)Prompting,中文叫“思维链提示词”

操作也很简单:在 prompt 里加一句魔法咒语,比如:

“让我们一步一步地思考这个问题。”

你会发现,只加了这句话,大模型的表现往往就能立刻变聪明一点
步骤清晰、逻辑更顺、有条有理,仿佛突然开窍了一样。

但问题也来了:

为啥它就因为你说了“一步一步”就表现好了?这不是挺玄的吗?

🧨 但别高兴太早,CoT 也容易翻车

就算用了思维链提示,大模型还是会犯错,比如:

简直就像那个认真分析了半天却把“鸡兔同笼”解成“火星种植”的学生。

🔍 那为什么 CoT 有时还是会让模型表现更好?

我们可以从几个角度来分析:

✅ 1. 是不是“算得更多”,就“表现得更好”?

还记得第3章我们讲过的 transformer 和注意力机制(attention)吗?

大模型接收的输入越长、输出的文本越多,
transformer 就需要做更多计算。

也就是说,当你让它“分步骤输出”时,它等于自己“多烧点脑细胞” ,可能就多思考了一点点(其实就是多算了)。

但——如果它真的有“世界模型”,
它应该能在“脑子里”先计划好,不需要靠“多说点”来强行“思考”。

✅ 2. 也许只是因为它看过太多类似教学材料

大模型的行为,和它见过的训练数据有关。

而在训练数据中,像“Let’s think step by step.”、“我们先从第一步开始”这种说法,
往往出现在教育内容、教程、范文、优秀回答里。

所以它可能只是学会了“这种说法=好学生”,于是你一提示,它就更认真“背模板”了。

换句话说:

CoT 并没有让模型掌握新技能,
只是帮它从“模糊记忆库”里,抽出更像样的内容罢了。

⚠️ 注意!“世界模型”这个词也容易误解

当我们说一个系统有“world model(世界模型)”时,到底是啥意思?

其实学界也没统一说法。不同人说的“世界模型”可能完全是两码事。

所以在聊这个话题前,最好先把定义讲清楚
不然你说“世界模型”是能理解现实,我说的是能模拟物理规律,
结果两边聊得热火朝天,根本不是一个频道。

这类术语混乱的问题,我们会在本书最后两章再深入吐槽一波。

🧪 那“世界模型”就没戏了吗?别急,有人在搞!

虽然目前 LLMs 还没有真正意义上的世界模型,
但有一些研究者已经在尝试把“世界建模”能力塞进 AI。

比如 David Ha 和 Jürgen Schmidhuber 在 2018 年做的一个项目:
👉 worldmodels.github.io

他们设计的系统能在模拟游戏中大幅提升表现,比当时流行的方法强多了。

也有研究在搞:

不过目前这些方法都还很初期,适用于某类特定任务,
距离人类那种“通用世界理解能力”还远得很。

🧠 总结一句话:

大模型不会“闭嘴思考”,它只能“边说边想”;
“CoT 提示”有点用,但别太信;
真正的“世界理解力”,还得靠人类慢慢喂养,不是一句 prompt 能搞定的事儿。

7.4 计算的极限:该难的事还是难

有些人担心所谓的“AI 暴走”:
某种超级智能的 AI 会突然变得无所不能,不但能秒解人类永远解不了的问题,
而且它的目标根本不和人类对齐,甚至还可能不怀好意。
最吓人的是,这种 AI 还能不断“自我进化”,最终变得像神一样强大,连我们人类都看不懂它在干嘛。

这类想法在网络上炒得很热,仿佛 GPT 再升几级就能统治地球。

关于这个话题的伦理和哲学问题,我们会在最后几章再慢慢聊。
但现在,我们先来从技术的角度讲点实话:

现实中,AI 还远远没有“脱缰”,因为——它受限于计算复杂度这堵墙。

🚧 什么是“计算复杂度”?先来一小段“程序员通识课”

在计算机科学里,我们很在意一个问题:

“数据量变大时,程序运行时间会涨多少?”

理想情况下,如果你把输入数据翻倍,程序运行时间也只是翻倍,
这叫 线性复杂度(linear complexity) ,用数学语言写成:O(n)

但这只是童话般的美好愿望,大部分现实问题远比这麻烦。

我们通常用“大O符号”(Big-O Notation)来描述算法的复杂度增长情况:

复杂度等级数学表示直观例子(原本要2天)换成4个输入后可能变成…
线性:O(n)就是一倍一倍来4天,刚好翻倍,很理想
对数线性:O(n log n)有点增长,但不太离谱约4.4天,还能接受
平方:O(n²)数据一多就爆炸8天,感觉不妙
指数:O(2ⁿ)想都别想程序跑完前可能人类都灭绝了 😵

你可以想象:随着数据量变多,图表的曲线会变得越来越陡。

也就是说:

数据一多,复杂度高的算法就会卡成 PPT,动弹不得。

🤖 那 LLM(大语言模型)属于哪个级别?

在实际运算中,LLM 对输入长度为 n 的文本(比如 token 数)进行处理时,
它的复杂度大约是 O(n²),也就是“平方复杂度”

这代表啥?
比如你现在让它处理 1000 个 token,它花 1 秒钟;
那你输入 2000 个 token,它可能就得花 4 秒钟!

所以我们可以很确定地说:

只要某个任务本身的最低计算复杂度就高于 O(n²)
那么 LLM 是不可能“高效”地解决它的,因为它天生就吃不动!

⚠️ 小提醒:我们这里不是在讲算法研究生课程

我们这里只是让你建立一个“计算瓶颈”意识,
没打算拉你深挖 NP-完全问题和图着色定理。

如果你想深入搞懂这些复杂算法,可以去看看这本书:
📘《Grokking Algorithms:程序员的算法通识手册》,作者是 Aditya Bhargava,非常适合初学者。

❗不可能超越复杂度的天花板

再举个例子:

假设有一个任务,它的计算复杂度是 O(n³)(立方级),
而你手里的大模型最高只能跑到 O(n²),那不就尴尬了吗?

你不能指望一个二年级的小学生去解大学数学竞赛题。
如果 LLM 真能跑过这道题,说明我们对这题的复杂度评估可能是错的——逻辑自洽就崩了。

所以结论是:

LLM 再强,它也不能魔法般解决那些“超出它能力上限”的难题。

📦 表 7.1:一些现实世界中的“超难任务”

虽然表 7.1 的具体内容还没列出来,但我们可以先剧透几个典型例子:

任务常见复杂度为什么难?
包裹投递路径最优化(TSP)NP-hard / 指数级输入一多,可能连明年春节都安排不完
航班重新排班O(n³) 或更糟航空公司永远的“噩梦调度器”
资源分配(人、货、机器)常超 O(n²)变数太多,方案太杂,爆炸太快

这些问题共同特点是:组合太复杂、变量太多、计算太烧脑
不是 LLM 不努力,而是数学不给面子。

🧠 总结一下:

除了“算法多复杂”,我们还得关心“它属于哪个复杂度圈子”

除了计算时间的多少,算法还有一个非常关键的“圈层概念”——
那就是它属于哪个 复杂度类别(complexity class)

你可以把它理解为“这类算法到底都能解决哪些事”的分类标准,
就像江湖门派:你是武当派还是少林派,不是看你拳头多快,而是看你内功修到哪一层。

⚔️ 最出名的两个复杂度门派

比如“给一堆城市画最短路线”这个问题——你要走一遍才能知道是不是最短的。

🧠 LLM 在这个“复杂度宇宙”里处于什么等级?

现在,重磅来了:

研究者 William Merrill 和 Ashish Sabharwal [14] 做了一个很酷的发现:

大模型解决问题的能力,跟它“中间步骤里生成了多少 token”是正相关的。

简单翻译一下:

但——如果我们让 LLM 生成更多中间步骤(比如用 Chain-of-Thought 提示词一步步“思考”),
它的处理过程会逐渐“晋升”,最终能达到 P 类问题的能力范围。

不过!即便如此,它还是只能在 P 这个门槛以下徘徊
永远打不过 NP 和更难的问题!

📊 图 7.7:复杂度江湖门派图

可以想象,图 7.7 就是把这些复杂度等级像蛋糕一样分层:

越往上,问题越复杂 → L → P → NP → EXP(爆炸复杂度)→ ???

而我们的 LLM,就像一个只能跳两层楼的小怪兽:

🧠 小结:

这下可惨了:复杂度类别不是说“跑得快”,而是“能不能跑”

刚才我们讲到复杂度类别。问题是,这事儿比“跑得慢”还惨。

为什么?因为:

复杂度类别(complexity class)说的不是你跑多快,而是你有没有资格跑。

举个例子:

如果一个问题是 O(n³) 级别的(比如航班调度、路径优化这类),
你得让模型生成 个 token 才能解出来;
但模型生成 token 本身也是 O(n²) 的复杂度。

所以你相当于干了:
O(n³) × O(n²) = O(n⁵) 的操作!

简直是自己搬砖砸自己:一边是任务复杂,一边是处理能力有限,最终变成了计算爆炸现场

而这还不包括训练模型、调 prompt、让模型别出错等隐性成本。
所以我们说——大模型干复杂活,纯靠蛮力是真扛不住的。

7.4.1 模糊问题,就该配模糊算法

说到这,你可能已经开始怀疑人生了:

“那是不是 LLM 根本派不上用场?”

别灰心,其实——LLM 的强项压根就不是精确计算!

像所有机器学习系统一样,大模型最适合“模糊问题”
那些你很难用一句话说清楚对错的问题。

比如:

这些问题的答案,本身就是带感情色彩、不确定性的,容错率很高
你就算回答得不那么完美,人类也不会翻脸,顶多再追问一句。

人类语言本身就模糊、含糊、绕弯、啰嗦,
正好跟 LLM 的模糊特性相得益彰,天作之合。

所以文本总结、情绪判断、写初稿、润色检查……
这种**“差不多就行”**的工作,才是 LLM 的主战场。

7.4.2 复杂问题,也能“差不多就行”?

我们也要反过来讲点公平话:

不是只有 LLM 解不了复杂问题,人类也不行

以我们前面提到的旅行商问题(TSP)为例:
快递小哥想找一条最短的送货路线,不重复,不走回头路。

这类问题是 NP-hard 的,换句话说:

全世界最聪明的人也只能解个百八十个点,再多就烧脑烧电烧命。

那现实中我们是怎么解决的?

LLM 同样可以用于这类“差不多就行”的策略,只要你别指望它给出完美解法

♟️ 棋类游戏能说明啥?

国际象棋为例,它的难度比 NP-hard 还高。但 GPT-3.5 也能下得有模有样,甚至能赢真人。

那是不是说明 LLM 可以“近似解决”超复杂问题?

也不完全是:

    LLM 在象棋上的表现,有可能是被“特别训练过的” (OpenAI 把象棋加进了评估指标里,还 fine-tune 过);象棋的数据网上一大堆,训练集里可能就有几十万盘完整棋局;所以它下得不错,更像是“记忆 + 模板匹配”,而不是“真实推理 +实时计算”。

结论是:

它是在“看过一万局象棋”的基础上,复现了差不多的策略,
而不是从头“学会怎么赢”。

💡 总结一下:如何用好 LLM?

最适合的场景是:

比如:

这类“轻任务”,LLM 是黄金搭档。

🕹️ 再补一个例子:围棋 AI 的“超级战神模式”也有盲点

围棋是几十年来 AI 研究最难攻克的堡垒之一。
虽然现在 AlphaGo 和一票 AI 已经可以击败顶级棋手,但——

如果你写个奇葩 AI,专门下离谱棋、骚操作、假动作,
它可能就能干翻“超级 AI” ,但反而被普通人轻松碾压。

这说明了什么?

🧠 最终结论:

大模型不是天才数学家,也不是宇宙逻辑引擎。
它是一个大词库里的模糊预测机
把它放在合适的位置,它就是效率之神;
让它扛起严谨推理,它只会给你复制粘贴风格的“错得像对”。

总结:别神化大模型,它是你效率工具,不是宇宙神明

🎯 一言以蔽之:

LLM 不是万能选手,但它是模糊世界里的全能工具人。
用得对,它就是你的超级助理;用错地方,只会把你坑惨。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 人工智能 学习方式 计算复杂度 提示词工程
相关文章