原创 让你更懂AI的 2025-05-27 13:42 北京
99%准确率≠真智能!
随着大模型能力持续增强,仅通过观测各个 Benchmark 上的得分来判断一个模型是否真的聪明、值得信赖,可能远远不够。
你是否知道:
评估一个大模型完整跑完一套标准测试(如 HELM),可能耗时超过 4000 GPU 小时、成本上万美元;
工业界中的模型评估甚至要大量人类专家参与标注/评判;
很多 Benchmark 中的题目质量可能并没有我们想象中那么可靠;
即使模型准确率高达 99%,我们依然很难回答:它是靠实力答对的?题目太简单?还是训练时见过原题?
传统的大规模“刷题式”评估方式,已经难以满足如今通用人工智能的评估需求,尤其是认知能力的评估。
最近在 ICML 2025 会议上,一项由中国科学技术大学认知智能全国重点实验室、加州大学伯克利分校、美国教育考试服务中心 ETS 共同发布的立场论文(Position),基于上世纪就出现的心理测量学理论,提出一种 AI 评估的新思路:用评估人类的方式,来评估 AI 模型的能力。
论文标题:
Position: AI Evaluation Should Learn from How We Test Humans
论文链接:
https://arxiv.org/abs/2306.10512
为了追求全面的评估,目前 AI 模型面对的是越来越大的“试卷”,Google BIG-bench 超过 200 个任务、HuggingFace Open LLM Leaderboard 更是包括 6 个场景下 29k 个题目。
目前主流的 AI 评估方案,简单直接:准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分。但这种评估范式实际应用中却问题重重:
成本:尤其针对大模型,评估涉及大量的计算成本、人工成本、时间成本;
可靠性:大量题目存在重复/冗余、题目质量良莠不齐;
安全性:很多测试题被模型“见过”或者“记住”了;
可解释性:只观测到“做对多少题”,但不知道“能力强在哪儿”“能力有多强”。
心理测量学启发:用自适应测试精准测 AI 能力
在人类的 GRE、TOEFL 等考试早已采用基于心理测量学(Psychometrics)的自适应测试。这类测试认识到:每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征,并且系统会根据考生表现动态分发题目,更精准评估能力。
换句话说,自适应测试关注的,不是模型答对了多少题,而是其它真正的能力边界。本立场论文提出:心理测量学这种起源于 20 世纪针对人类的测评技术,可以帮助解决如今 AI 评估的困境,重构能力评估机制。
用心理测量学重构 AI 测评
3.1 能力导向:测出 AI 真正的“能力值”传统的评估范式是分数导向(score-oriented)而自适应测试则是能力导向(ability-oriented),不是数对了多少题,而是构建 AI 能力分布模型,给出统计意义上的能力估计。具体优势为:
高效性:精准选择高信息量题目,研究者发现可用不足 3% 的题量,即可还原完整 Benchmark 上的成绩(上图)
可解释:建模模型能力与题目特征间的关联,如相同能力下难度越低答对概率越大,可解释分数背后的原因;认知诊断模型还支持建模AI的多维能力
捕捉不确定性:模型行为可能受温度参数或 prompt 微小变化影响(例如人类考试时也会收到环境、心情波动等影响)
可比较性:在统一尺度上对模型能力进行统计比较,甚至可跨 Benchmark 统一评估(如人类的 GRE 不同场次分数具可比性)
因此,心理测量可以将 AI 模型的表现映射为“能力参数”,进而分析模型擅长/薄弱在哪、稳不稳定、不确定性高不高。
3.2 不是所有的题目都是同样重要
很多人默认 Benchmark 中的测试题目是“准确、可靠、有价值”,但事实往往不是这样。不是所有题都值得出现在测试集中。心理测量学能够估计每个题目的特征,如难度(),区分度(),猜测系数()。
Benchmark 中每个题目的价值/重要性是不一样的,上图(a)展示 SSTB 情感分类数据集中两个题目估计出的难度差异,简单的题目中有明显的情感偏向词汇。
Benchmark 中可能出现低质量甚至是标注错误的题目,如上图(b)所示,在 SQuAD 阅读理解数据集中,有些题目的区分度极低,分析发现其参考答案甚至存在错误。
部分题目易被“猜对”,无法真实考察能力。如上图(c)中 MedQA 医疗问答数据集的某题,即便模型缺乏医学知识,也可能仅凭常识猜对,这些题目的高猜测系数削弱了其评估价值。
3.3 大模型“偷看”过题目?数据污染识别
如今的大语言模型训练数据动辄覆盖全网,来源复杂,这带来了一个严重的问题:测试数据,很可能被模型在训练阶段“看”过。这被称之为数据污染(Data Contamination):模型在“考试”时,恰好碰上自己训练中“背过”的原题。这会造成什么影响?模型行为异常好,但并非出于理解,而是记忆;测试分数被大幅抬高,误判模型的真实水平;Benchmark 信用下滑,无法反映模型的泛化能力...
这就像,一场考试中,有考生提前拿到了原题,自然不能作为依据来判断他的水平。和人类教育体系一样,心理测量学中已经发展出一系列检测作弊或泄题的统计方法,已被证明能有效发现异常模式,并且现有很多针对 LLM 的污染检测方法也是基于如下思想(上图)。比如:
高难题答对,低难题却答错,这是典型的表现异常
模型频繁在“不可能答对的题”上答对,很可能就是“见过题”;
IRT 中的猜测系数异常偏高,说明模型无需理解也能答对,可能也说明是题目泄露。
此外,自适应测试还有一个天然优势:每个模型做的题不同,完整的测试集没有完全暴露,进一步降低了数据污染风险。这正是 GRE 等人类考试采用自适应测试机制的重要原因之一。
应用前景:建立 AI 时代的“心理测评框架”
该工作跨越人工智能、认知科学和标准化测评三大领域,试图为 AI 评估系统带来结构性优化。从能力评估,到偏好倾向、决策逻辑、稳定性与公平性,我们是否可以不再追求“大而全的测试集”,而是细致建模题目特征差异,洞察模型的表现与内在结构。它不仅适用于 Benchmark 构建与维护,也可能为未来AI部署前的风险评估、服务适配、安全验证等环节的提供支持。
这种“考 AI 方式与考人方式趋同”的变化,启发一种可能性:是否可以构建一个新学科方向——机器心理测量学(Machine Psychometrics)?
总之,AI 模型越来越聪明,评测方法也要变得更聪明。我们用考察人类的方法,来考察 AI,用已被验证的科学理论重建评估系统,为通用人工智能时代建立精准且公正的能力测量范式。
作者介绍
庄严,博士研究生 3 年级,来自中国科学技术大学-认知智能全国重点实验室,师从刘淇教授。主要研究方向包括自适应测试与认知诊断理论、人工智能可信评估。
欢迎联系:zykb@mail.ustc.edu.cn
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·