PaperWeekly 前天 14:22
ICML 2025 | 用“人类考试法”戳破AI泡沫:构建能力导向的自适应测评新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了当前AI评估方式的局限性,并提出了一种基于心理测量学的全新评估方法。通过借鉴人类考试的经验,采用自适应测试,关注AI的真实能力,而非简单地追求高准确率。这种方法能够更有效地评估AI模型,解决数据污染问题,并为AI时代的评估体系提供更精准、公正的框架。

🤔 **传统评估的困境**:当前AI评估依赖大规模测试集和准确率,但这种方式成本高昂、可靠性低、易受数据污染影响,且难以解释模型的真正能力。

💡 **心理测量学的启发**:借鉴GRE、TOEFL等考试的自适应测试方法,通过分析题目特征和模型表现,精准评估AI的真实能力,而非仅关注答对题目的数量。

✅ **自适应测试的优势**:自适应测试能够高效评估、提升可解释性、捕捉不确定性,并实现跨基准的统一评估,更关注AI的能力边界。

🧐 **数据污染的挑战**:大模型训练数据复杂,测试数据可能被模型“见过”,导致评估结果失真。心理测量学方法能有效检测并降低数据污染风险。

🚀 **构建AI时代的心理测评框架**:该研究旨在建立一个更精准、公正的AI能力测量范式,为AI部署前的风险评估、服务适配、安全验证等环节提供支持。

原创 让你更懂AI的 2025-05-27 13:42 北京

99%准确率≠真智能!

随着大模型能力持续增强,仅通过观测各个 Benchmark 上的得分来判断一个模型是否真的聪明、值得信赖,可能远远不够。

你是否知道:

传统的大规模“刷题式”评估方式,已经难以满足如今通用人工智能的评估需求,尤其是认知能力的评估。

最近在 ICML 2025 会议上,一项由中国科学技术大学认知智能全国重点实验室、加州大学伯克利分校、美国教育考试服务中心 ETS 共同发布的立场论文(Position),基于上世纪就出现的心理测量学理论,提出一种 AI 评估的新思路:用评估人类的方式,来评估 AI 模型的能力。

论文标题:

Position: AI Evaluation Should Learn from How We Test Humans

论文链接:

https://arxiv.org/abs/2306.10512

当前 AI 评估方式面临的困境

为了追求全面的评估,目前 AI 模型面对的是越来越大的“试卷”,Google BIG-bench 超过 200 个任务、HuggingFace Open LLM Leaderboard 更是包括 6 个场景下 29k 个题目。

目前主流的 AI 评估方案,简单直接:准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分。但这种评估范式实际应用中却问题重重:

心理测量学启发:用自适应测试精准测 AI 能力

在人类的 GRE、TOEFL 等考试早已采用基于心理测量学(Psychometrics)的自适应测试。这类测试认识到:每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征,并且系统会根据考生表现动态分发题目,更精准评估能力。

换句话说,自适应测试关注的,不是模型答对了多少题,而是其它真正的能力边界。本立场论文提出:心理测量学这种起源于 20 世纪针对人类的测评技术,可以帮助解决如今 AI 评估的困境,重构能力评估机制。

用心理测量学重构 AI 测评

3.1 能力导向:测出 AI 真正的“能力值”

传统的评估范式是分数导向(score-oriented)而自适应测试则是能力导向(ability-oriented),不是数对了多少题,而是构建 AI 能力分布模型,给出统计意义上的能力估计。具体优势为:

因此,心理测量可以将 AI 模型的表现映射为“能力参数”,进而分析模型擅长/薄弱在哪、稳不稳定、不确定性高不高。

3.2 不是所有的题目都是同样重要

很多人默认 Benchmark 中的测试题目是“准确、可靠、有价值”,但事实往往不是这样。不是所有题都值得出现在测试集中。心理测量学能够估计每个题目的特征,如难度(),区分度(),猜测系数()。

3.3 大模型“偷看”过题目?数据污染识别

如今的大语言模型训练数据动辄覆盖全网,来源复杂,这带来了一个严重的问题:测试数据,很可能被模型在训练阶段“看”过。这被称之为数据污染(Data Contamination):模型在“考试”时,恰好碰上自己训练中“背过”的原题。这会造成什么影响?模型行为异常好,但并非出于理解,而是记忆;测试分数被大幅抬高,误判模型的真实水平;Benchmark 信用下滑,无法反映模型的泛化能力...

这就像,一场考试中,有考生提前拿到了原题,自然不能作为依据来判断他的水平。和人类教育体系一样,心理测量学中已经发展出一系列检测作弊或泄题的统计方法,已被证明能有效发现异常模式,并且现有很多针对 LLM 的污染检测方法也是基于如下思想(上图)。比如:

此外,自适应测试还有一个天然优势:每个模型做的题不同,完整的测试集没有完全暴露,进一步降低了数据污染风险。这正是 GRE 等人类考试采用自适应测试机制的重要原因之一。

应用前景:建立 AI 时代的“心理测评框架”

该工作跨越人工智能、认知科学和标准化测评三大领域,试图为 AI 评估系统带来结构性优化。从能力评估,到偏好倾向、决策逻辑、稳定性与公平性,我们是否可以不再追求“大而全的测试集”,而是细致建模题目特征差异,洞察模型的表现与内在结构。它不仅适用于 Benchmark 构建与维护,也可能为未来AI部署前的风险评估、服务适配、安全验证等环节的提供支持。

这种“考 AI 方式与考人方式趋同”的变化,启发一种可能性:是否可以构建一个新学科方向——机器心理测量学(Machine Psychometrics)

总之,AI 模型越来越聪明,评测方法也要变得更聪明。我们用考察人类的方法,来考察 AI,用已被验证的科学理论重建评估系统,为通用人工智能时代建立精准且公正的能力测量范式。

作者介绍

庄严,博士研究生 3 年级,来自中国科学技术大学-认知智能全国重点实验室,师从刘淇教授。主要研究方向包括自适应测试与认知诊断理论、人工智能可信评估。

欢迎联系:zykb@mail.ustc.edu.cn

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI评估 心理测量学 自适应测试 数据污染 能力评估
相关文章