2025年的高考刚结束,AI挑战高考题的浪潮却持续升温。
DeepSeek、腾讯混元、字节豆包、阿里通义千问、百度文心、讯飞星火等大模型纷纷被“请”进同款试卷的线上战场,掀起了一波“AI赶考”的刷屏热潮,“千军万马过独木桥”的竞赛在硅基世界中重演。
然而,不同评测团队的试卷版本和OCR识别效果各不相同,可能连大模型是否顺利阅读到答卷都有很大的不确定性,打分标准更是五花八门,单次的“高分”往往难以复现。
另外,高考是为筛选人才而设计的,它考查的不仅是知识掌握,更是时间压力下的心理素质和临场应变能力。
当我们用非标测试下的AI高考分数能力来评估大模型的能力,真的客观吗?单次的分数,又能否代表某个大模型的真实能力?
先说结论:
用高考题这种标准化试题评测大模型的单科能力具有一定的客观性和参考意义。但是成绩高不等于大模型一定强,人类考试的分数标准并不适用于AI模型的能力评估标准。
目前的"AI高考"测试普遍缺乏严谨性,测试环境和评分标准都不够规范可信。
评估大模型能力应使用专门设计的Benchmark。
如果非要用“高考成绩”看模型能力,应该看梯队而非排名,几分的差距不能充分代表能力差距。
"AI高考"如何考?
从目前已经公开的文章来看,“大模型赶考”一般会经历以下两个步骤:
第一步是给大模型输入高考题,主要采用了以下几种方法:
直接文本输入:将题目以纯文本形式输入给大模型,让模型给出答案。但是如果题目包含图像,模型可能无法解题。
OCR转换法:将图片、扫描件或PDF文档中的文字转换为可编辑和可搜索的文本格式,再输入给大模型。这种方法的准确性很大程度上依赖于OCR技术的质量,可能引入额外的误差。
多模态输入法:直接将包含文字和图像的题目输入给具备视觉能力的大模型。这种方法最接近人类考试的实际情况,但很多大语言模型还不具备这种能力。
人工转写:由人工将题目内容转写为标准文本格式。这种方法可以避免OCR错误,但可能在转写过程中丢失或改变原题的某些信息。
第二步,是进行评分,这个环节也有不同的机制:
最简单的是标准答案对比法:将模型答案与标准答案进行对比,按照预设规则给分。这种方法相对客观,但主观题的评判还是会有偏差。
还有很多人邀请一线教师或教育专家对模型答案进行评分。这种方法的优势是专业性强,但完全依赖人类高考的标准,存在主观性和一致性问题。
多轮评分法:由多位专家独立评分后取平均值。这种方法可以减少个体主观性的影响,但评测成本较高,被采用比较少。
混合评分法:结合自动化评分和人工评分。对于有明确答案的题目使用自动评分,对于开放性题目使用人工评分。
给模型输入题目的路径方法五花八门,评分环节也有不同的机制,所以我们会发现同一个AI在不同媒体的测试中,分数往往不太一样,排名也是千差万别。
比如,让AI做同一张数学全国卷一。下图(左)是一位AI自媒体,用AI进行三轮答题,仅参考最终答案,按照答对的概率给模型评分,得出的得分排名。下图(右)是我们用OCR转化之后,取AI一轮答题结果,并请人类名师按照高考的标准进行评分后得到的结果。两个结果大相径庭,以豆包为例,右边得分仅为75分,而左边得分高达145分。
在评分标准中,我们特别注意到,为了结果的客观性,有些测试让 AI 在同一道题上连做数次,再取平均分。
这种做法仅仅可以说是相对科学。“多做几遍再平均”可以降低随机波动、在数值题上确实有用,但它帮不了模型纠正概念性错误。
大模型生成文字(更准确地说是“token”)的过程本质上是一次受概率分布控制的采样:在生成每个token时,模型会对词(或子词)表中的所有候选赋予一个概率。当推理温度temperature 高于0时,模型不会总是选择概率最高的那个候选,而是按概率进行随机采样。
这个特性让模型具备多样化、富有创造力的输出能力。但随之而来的副作用是:在数学推理任务中,模型可能为同一题目生成不同的思考路径,从而出现不同答案。
这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。
在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。
这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。
在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。
高考题适合测试AI吗?
那么,让AI做高考题究竟有意义吗?
智源研究院技术平台智能评测组负责人杨熙对腾讯科技说:“用高考题评测大模型的单科能力具有一定的客观性和参考意义,因为高考题标准化强、覆盖知识面广,能初步反映模型在各学科的基本表现。
不过,高考题主要针对人类设计,模型可能利用大规模语料或答题技巧获得高分,实际能力未必与分数严格对应,特别是在主观题或知识应用方面。“
上面两个对比不同的评分,主要的分数差别,就在主观题。高考题目为人类设计,为了衡量学生在特定的阶段(高中)对规定知识点的掌握与延展迁移能力。
主观题的解答过程中会设置多个得分点,如果在解题过程中没有覆盖得分点,即使仅仅是答案正确,也不能得满分。人类老师在点评AI数学试卷的时候,把大模型遗漏的得分点全部扣了分。
人类在考试的时候,不仅要考做得对,还要考思考路径。虽然目前的推理大模型有看起来与人类类似的思考过程,但是“大模型“与”人脑“的思维本质完全不同。
因此,人类教师扣分标准也不适用于AI(如步骤分)。
LLM 在构建“知识结构”时,会同时吸收课本语料、学术论文、软件代码、网页表格甚至带字幕的图像说明等多模态数据,因此它的“知识网”天然跨越小学算术到研究生数学的所有层级,并不是针对于高考的“高中”阶段。
这种高度杂糅的语料库带来了一种被称作“逆向(inverse)或 U-形缩放”现象:当模型规模增加、在预训练目标上损失降低时,部分看似简单的任务成绩反而先下降后上升,或者长期停留在低位。用通俗但不是很严密的语言来解释,就是在高难度任务上表现好,在低难度任务上反而出错。
比如,早期GPT-3系列便曾在"如果一个数的平方是16,这个数是多少?"这样的简单问题上犯错,它一般会只回答"4"而忽略"-4",但它当时却能够正确处理更复杂的二次方程。
进一步分析这些错误,研究人员也发现大模型的数学能力常呈“岛状分布”:在单一技能上得分特别高,而难以解决多个概念串联的综合题。比如,当同时给出图形与文字叙述时,多模态大模型的整体正确率显著低于纯文字的同等难度的题。
此外,大模型答题,有时体现的未必是“答题能力”,而是OCR 带来的“识题能力”差异。
即便是原生多模态大模型直接看图答题,也难以彻底解决成像缺陷的问题。视觉编码器首先要在特征空间“看懂”图形,再交给语言解码器推理;若圆因拍摄角度被拉成椭圆,或光照不均让局部对比度骤降,模型就可能误把曲线、关键点甚至题目文字识别错位,随后整条推理链都会被带偏,导致整题全错。
图:经过不同程度的高斯噪声、高斯模糊和低光照处理后的CIFAR-100示例图像,同一张 CIFAR-100 里的图片,分别施加三种常见失真——高斯噪声、模糊和低光照——并按强度分成三级。直观可见,当图像被模糊(第二行)或整体变暗(第三行)时,轮廓与细节迅速消失,这正是导致视觉-语言模型识别与后续推理出错的典型场景。
对比之下,人类凭多年生物进化的感官经验,能轻易识别这些视觉偏差,这正是当前 AI 尚未弥合的感知-推理协同差距。
所以,人类的难题并不是大模型的难题,人类一眼就能解决的问题,对于大模型反而比“获得博士学位”还难。所以,就如杨熙所说,“大模型”赶考能够一定程度反映大模型在各个学科的基本表现,但是,人类的“高考题”可能并不适用于客观评测AI的强弱。
科学的AI评测是什么样的?
那什么样的测试才算科学呢?
大模型评测可以一句话概括为:由模型开发方与第三方研究机构共同用公开基准在零/少样本条件下比对分数,以快速衡量通识知识、推理、对话、多模态理解与安全鲁棒性等关键能力。
大模型发布时通常由实验室先给出内部自动跑分,再提交到公开排行榜或接受学术评审;同期,独立学者、社区平台(Papers with Code、LMSYS)、以及企业安全审核团队会复测并公开对比。评测默认零样本或少样本,避免微调泄漏,并采用统一脚本与隐藏测试集。业界最关注三大维度:知识-推理精度(能否答对多学科或复杂问题);交互与多模态能力(对话一致性、视觉-语言推理);安全与稳健性(偏见、毒性、对抗鲁棒)。
一般大模型发布都会列出MMLU、BIG-bench、GSM8K、MATH、SuperGLUE、HellaSwag、TruthfulQA 及多模态 MMBench 或 VQA 的成绩,以展示在通识、创造性推理、算术与竞赛数学、深层语言理解、常识推断、事实一致性和视觉-语言理解上的水平。
图:常见大模型的Benchmark
在这些能力上的综合得分水平,才是对大模型能力量身定制的“高考”。
图: GPT-4.5、GPT-4o、Open AI o3-mini(high)的各项Benchmark分数对比
如果非要测试,怎样做才最客观?
虽然高考题并不能客观评价大模型的综合能力,但如果真的要做这样的测试,比如设计一个Gaokao Benchmark,怎样才能得到最客观、最有含金量的结果呢?
1、统一测试环境。不同的AI可能有不同的接口、不同的参数设置、不同的使用方式。为了公平比较,需要尽可能统一测试条件。比如,都使用相同的温度参数(控制随机性程度),都使用相同的输入格式,都在相同的时间段进行测试。
2、题目处理要标准化。对于包含图片的题目,应该统一使用高质量的OCR工具进行文字识别,或者统一使用多模态AI的视觉能力。不能有的AI看原图,有的AI看OCR文字,这样就不公平了。
3、评分标准要细化。不能简单地按照传统高考标准评分,而要考虑AI的特点。比如,如果AI用了一种非常规但正确的解题方法,人类应该认可。如果AI的答案在数值上正确但表述方式不同,也应该算对。
4、多次重复测试。既然AI的输出有随机性,那就不能只测一次。科学的做法是让每个AI重复做同一套题目至少5-10次,然后计算平均分和标准差。这样能够更准确地反映AI的真实能力水平,而不是某一次的"运气"。
5、分科目分析更有意义。不要只看总分排名,而要分别分析AI在不同科目、不同题型上的表现。比如,某个AI可能在代数题上很强,但在几何题上较弱。这种细分析比简单的总分排名更有价值。
6、 透明化测试过程。公布详细的测试方法、使用的工具、评分标准等。最好能够让其他人重复这个测试,验证结果的可靠性。
几分之差能说明什么?
即使采用科学的测试方法,可能按分数排名还是并不科学。比如DeepSeek获得143分、豆包获得141分,这2分的差距是否真的说明DeepSeek比豆包更优秀呢?
在真正的高考中,竞争确实残酷,几分之差可能与理想院校失之交臂。然而,几分的差距并不一定代表能力上的实质性差异。
因此,梯队划分比会精确排名更合理。
比如第一梯队(135-150分)具备优秀的数学推理能力
第二梯队(120-134分)具备良好的数学基础能力
第三梯队(105-119分)具备基本的数学计算能力
另外,智源研究院技术平台智能评测组负责人杨熙也提示说:“几分的分差(尤其在高分段)难以体现真实的能力优劣,可能更多受参数设置、评分细节或答案格式影响。要全面评估大模型的学科能力,需要结合错题类型、题目难度、答题逻辑等细粒度分析,而不仅仅依赖于总分对比。”
看来,大模型赶考,仅看分数,很难封王。
参考文献
1、《衡量大规模多任务语言理解》(Measuring Massive Multitask Language Understanding)
https://paperswithcode.com/dataset/mmlu
2、《训练验证器解决数学文字题》(Training Verifiers to Solve Math Word Problems)
https://github.com/openai/grade-school-math
3、《利用 MATH 数据集评估数学问题求解》(Measuring Mathematical Problem Solving With the MATH Dataset)
https://github.com/hendrycks/math
4、《WritingBench:大模型写作能力评估的革命性突破》(WritingBench: A Revolutionary Benchmark for Large-Model Writing Ability)
https://www.qbitai.com/2025/03/265933.html
5、《SuperCLUE:中文通用大模型综合性基准》(SuperCLUE: A Comprehensive Chinese Benchmark for General-Purpose LLMs)
https://github.com/CLUEbenchmark/SuperCLUE
6、《检验大模型数学推理能力:司南发布全新评测指标与评测集》(Assessing LLM Mathematical Reasoning: SINAN Releases New Metrics and Dataset)
https://www.shlab.org.cn/news/5444037
7、《链式思维提示能激发大型语言模型的推理能力》(Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)
https://arxiv.org/pdf/2203.11171
8、《CIFAR-100 图像在不同高斯噪声 / 模糊级别下的示例》(Example CIFAR-100 image after various levels of Gaussian noise / blur)
https://www.researchgate.net/figure/Example-CIFAR-100-image-17-after-various-level-of-Gaussian-noise-Gaussian-blur-and_fig3_33566877
本文来自微信公众号“腾讯科技”,作者:晓静,36氪经授权发布。