大语言模型高考数学拿高分靠强化学习，那文科考高分得靠什么？

上次分析了大语言模型在高考数学考试中拿高分靠的是强化学习，也就是在后训练阶段，自己训练自己做有标准答案的数学题或者编程题，反复的自己刷题，做完题目对答案，答案做对了就有奖励，做错了就有惩罚，最终自己训练自己越练越牛。但是文科这样做行不通，因为文科很多题目没有标准答案，它就没有办法用文科题目自己训练自己，做强化学习。

那么这次豆包1.6系列在高考文科全科试卷中，拿到了 683 分（满分 750）的高分，按山东高考的赋分排名是够上清北的，靠的是什么呢？

我分析下来主要有几个原因：

训练数据

思维链（CoT，Chain of Thought）

长上下文

多模态直接读图

接下来我稍微解释一下

1. 训练数据：人文领域语料比例更高、质量更好

虽然我们有时候开玩笑说文科要考死记硬背，但这也确实反应了文科科目是需要大量记忆的，优质的语料至关重要，不仅要保证数据更新及时，还需要对数据清洗去重，提高知识密度和领域覆盖度。这样模型在回答历史叙事、地理概念、政治与经济常识等题型上，因为“见过的例子更多”，自然可以回答的更好，分数更高。

2. 思维链：文科也要思考

文科考试不意味着真的只是靠死记硬背，对于复杂的题目同样需要推理，思维链可以在输出答案前进行多步内在思考，逐步拆解，再生成结构化答案，可显著提高复杂问题的正确率。一个简单的例子就是英语翻译，如果在翻译完一遍后，让 AI 自己对翻译内容进行检查，输出检查结果，再基于检查和第一次翻译的结果重新翻译，翻译质量就会显著提高。

那么是不是什么问题都要加上思维链呢？

也并非这样，因为对于很多文科题目来说，可以直接输出答案而不必借助思维链，比如一些历史事件的年份之类，思维链毕竟是有时间成本和算力成本的，考试都有时间要求，做的时间长了可能就来不及做完了。所以现在先进的模型都会根据问题的复杂程度，来决定要不要推理，已经推理时长多少，比如 Claude 4、豆包 Seed 1.6都是如此，模型可以动态决定思考模式：

全思考（FullCoT）：对所有 prompt 都会进行思考再给出回答，同时对 CoT 长度进行了压缩

不思考（NoCoT）：对所有 prompt 都不会进行思考，直接回答，效率更高

自适应思考（AdaCoT）：以上两种模式的融合，模型会根据不同的 prompt，自动选择是否进行思考

3. 长上下文：长材料题一口气读完

在我们向 AI 提问时，上下文指的是给 AI 发送、AI 推理思考的内容和 AI 最终生成的所有信息。不同的模型上下文窗口长度限制不同，比如早期 GPT-3.5 只有 4K 的上下文窗口长度，如果让它做复杂的很长的阅读分析题，它就力不从心了，而长上下文不仅意味着要能输入很长的内容，同时输入的内容多了还不能降低生成质量，所以你看很多模型虽然号称上下文窗口多大多大，但是输入的内容长了就记不住输入的内容了。

大语言模型要在高考的文科考试中取得好成绩，文科综合常见“材料阅读＋多问”——几十行材料文本接着 3-5 问，上下文长度是很重要的。豆包这次能文科拿第一，256K 上下文长度是很重要的，让模一次性看到全部材料与提问，避免截断信息导致的丢失或前后矛盾。

4. 多模态直接读图：不需要担心图片转成文字造成的损耗

高考地理、生物、化学经常出现统计图、实验装置图、地图，在需要读图的考试时，不支持多模态的大模型就吃亏了，比如 DeepSeek R1 能力不错，但是做这类题时只能借助 OCR 把图片变成文字再答题，像地图、图表这些内容是很难用文字描述清楚的，这就好比一个盲人看不见，靠另一个人来描述，就会损耗很多信息，而多模态就好比人有了眼睛，能直接看到画面，就不会丢失关键信息。

像这次考试拿高分的 Gemini、豆包 Seed 1.6，对于多模态都支持很好，在预训练里就把图像-文本混合，RL 强化训练阶段又融合了视觉奖励能精准提取图表关键信息，再结合文本作答。

小结

因此，大模型在语、史、地等文科科目的选择题、材料题、论述题上要能交出接近“优秀考生”甚至顶尖考生水平的答卷，依靠的主要是：

记忆面宽：高质量语文/历史/地理语料 + 高频人文知识蒸馏。

思考后再回答：回答复杂问题前先思考。

看图能力强：图文交织预训练 + 视觉 RM ，让地图、表格、示意图不再是盲区。

材料吃得下：上下文把“整卷+材料”全放进 prompt，减少信息割裂。

1. 训练数据：人文领域语料比例更高、质量更好

2. 思维链：文科也要思考

3. 长上下文：长材料题一口气读完

4. 多模态直接读图：不需要担心图片转成文字造成的损耗

小结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签