宝玉的分享 前天 23:25
大语言模型高考数学拿高分靠强化学习,那文科考高分得靠什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

豆包1.6系列大模型在高考文科考试中取得优异成绩,得益于其在训练数据、思维链、长上下文和多模态处理等方面的技术优势。本文深入分析了这些关键因素,并探讨了其对未来大模型发展和应用的影响。

📚 训练数据:豆包模型拥有更高质量和更广泛的人文领域语料,这使得模型在回答历史、地理、政治等文科题目时表现更出色,因为模型“见过的例子更多”。

🧠 思维链(CoT):模型在回答复杂问题时,会进行多步推理,逐步拆解问题并生成结构化答案,从而显著提高正确率。模型可以根据问题的复杂程度,动态选择是否进行推理以及推理时长。

📖 长上下文:豆包模型拥有256K的上下文窗口长度,能够一次性处理整卷试题和长篇材料,避免了信息丢失或前后矛盾的问题,这对于文科综合考试至关重要。

🖼️ 多模态直接读图:模型支持多模态输入,可以直接理解图像,避免了将图片转换为文字带来的信息损耗。这使得模型在处理地理、生物等学科的图表时,能够更准确地提取关键信息并作答。

上次分析了大语言模型在高考数学考试中拿高分靠的是强化学习,也就是在后训练阶段,自己训练自己做有标准答案的数学题或者编程题,反复的自己刷题,做完题目对答案,答案做对了就有奖励,做错了就有惩罚,最终自己训练自己越练越牛。但是文科这样做行不通,因为文科很多题目没有标准答案,它就没有办法用文科题目自己训练自己,做强化学习。

那么这次豆包1.6系列在高考文科全科试卷中,拿到了 683 分(满分 750)的高分,按山东高考的赋分排名是够上清北的,靠的是什么呢?

我分析下来主要有几个原因:

    训练数据

    思维链(CoT,Chain of Thought)

    长上下文

    多模态直接读图

接下来我稍微解释一下

1. 训练数据:人文领域语料比例更高、质量更好

虽然我们有时候开玩笑说文科要考死记硬背,但这也确实反应了文科科目是需要大量记忆的,优质的语料至关重要,不仅要保证数据更新及时,还需要对数据清洗去重,提高知识密度和领域覆盖度。这样模型在回答历史叙事、地理概念、政治与经济常识等题型上,因为“见过的例子更多”,自然可以回答的更好,分数更高。

2. 思维链:文科也要思考

文科考试不意味着真的只是靠死记硬背,对于复杂的题目同样需要推理,思维链可以在输出答案前进行多步内在思考,逐步拆解,再生成结构化答案,可显著提高复杂问题的正确率。一个简单的例子就是英语翻译,如果在翻译完一遍后,让 AI 自己对翻译内容进行检查,输出检查结果,再基于检查和第一次翻译的结果重新翻译,翻译质量就会显著提高。

那么是不是什么问题都要加上思维链呢?

也并非这样,因为对于很多文科题目来说,可以直接输出答案而不必借助思维链,比如一些历史事件的年份之类,思维链毕竟是有时间成本和算力成本的,考试都有时间要求,做的时间长了可能就来不及做完了。所以现在先进的模型都会根据问题的复杂程度,来决定要不要推理,已经推理时长多少,比如 Claude 4、豆包 Seed 1.6都是如此,模型可以动态决定思考模式:

    全思考(FullCoT):对所有 prompt 都会进行思考再给出回答,同时对 CoT 长度进行了压缩

    不思考(NoCoT):对所有 prompt 都不会进行思考,直接回答,效率更高

    自适应思考(AdaCoT):以上两种模式的融合,模型会根据不同的 prompt,自动选择是否进行思考

3. 长上下文:长材料题一口气读完

在我们向 AI 提问时,上下文指的是给 AI 发送、AI 推理思考的内容和 AI 最终生成的所有信息。不同的模型上下文窗口长度限制不同,比如早期 GPT-3.5 只有 4K 的上下文窗口长度,如果让它做复杂的很长的阅读分析题,它就力不从心了,而长上下文不仅意味着要能输入很长的内容,同时输入的内容多了还不能降低生成质量,所以你看很多模型虽然号称上下文窗口多大多大,但是输入的内容长了就记不住输入的内容了。

大语言模型要在高考的文科考试中取得好成绩,文科综合常见“材料阅读+多问”——几十行材料文本接着 3-5 问,上下文长度是很重要的。豆包这次能文科拿第一,256K 上下文长度是很重要的,让模一次性看到全部材料与提问,避免截断信息导致的丢失或前后矛盾。

4. 多模态直接读图:不需要担心图片转成文字造成的损耗

高考地理、生物、化学经常出现统计图、实验装置图、地图,在需要读图的考试时,不支持多模态的大模型就吃亏了,比如 DeepSeek R1 能力不错,但是做这类题时只能借助 OCR 把图片变成文字再答题,像地图、图表这些内容是很难用文字描述清楚的,这就好比一个盲人看不见,靠另一个人来描述,就会损耗很多信息,而多模态就好比人有了眼睛,能直接看到画面,就不会丢失关键信息。

像这次考试拿高分的 Gemini、豆包 Seed 1.6,对于多模态都支持很好,在预训练里就把图像-文本混合,RL 强化训练阶段又融合了视觉奖励能精准提取图表关键信息,再结合文本作答

小结

因此,大模型在语、史、地等文科科目的选择题、材料题、论述题上要能交出接近“优秀考生”甚至顶尖考生水平的答卷,依靠的主要是:

    记忆面宽:高质量语文/历史/地理语料 + 高频人文知识蒸馏。

    思考后再回答:回答复杂问题前先思考。

    看图能力强:图文交织预训练 + 视觉 RM ,让地图、表格、示意图不再是盲区。

    材料吃得下:上下文把“整卷+材料”全放进 prompt,减少信息割裂。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

豆包大模型 高考文科 大语言模型 多模态 思维链
相关文章