36氪 - 科技频道 21小时前
谷歌推出开源框架,要给AI大模型的跑分“立规矩”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI大模型跑分乱象丛生,各机构标准不一,刷题作弊现象严重。谷歌推出开源框架LMEval,旨在为大语言模型和多模态模型提供标准化的评测工具,简化评测流程,节省时间和资源。LMEval支持LiteLLM项目,可跨Azure、AWS、HuggingFace等平台进行测试,涵盖文本、图像和代码等领域,并能识别大模型“规避策略”。此外,LMEval引入Giskard安全评分,展示模型规避有害内容的能力,并确保测试结果的安全性。

🏫 **行业背景**:当前AI大模型跑分存在“百家争鸣”的局面,各机构纷纷推出自己的榜单和测试工具,如清华大学的C-Eval、上海交通大学的CMMLU等。

🛡️ **谷歌LMEval**:谷歌推出LMEval旨在解决AI大模型评测标准不统一的问题,提供标准化的评测流程,简化评测工作,支持跨平台测试,并涵盖文本、图像和代码等领域。

🔒 **安全与客观性**:LMEval引入Giskard安全评分,评估模型规避有害内容的能力,同时强调测试结果的安全性,存储在加密的SQLit数据库中,避免被搜索引擎抓取。

🤔 **跑分困境**:AI大模型通过刷题提高跑分成绩,但这种方式并不能真正增强模型的泛化能力,反而可能导致“无意义的基准作弊”。

⚖️ **标准化意义**:谷歌LMEval的推出,旨在构建一个评价体系更加科学、长效和如实反映AI客观能力的体系,解决当前AI大模型评测中存在的难题。

“不服跑个分”,曾经是风靡手机圈的一句话,只不过随着用户越来越注重产品的综合体验,“唯分数论”已经逐渐被手机行业边缘化。可贯彻着万物皆可跑分的原则,AI大模型也成为了“不服跑个分”新的受众。

只不过相比于智能手机、PC,AI大模型跑分如今还属于是“百家争鸣”的状态。

其中既有清华大学的C-Eval、上海交通大学的CMMLU、伯克利的大模型竞技场(Chatbot Arena)等知名学府推出的榜单,也有民间高手自建的MMLU,甚至于做投资的红杉中国也搞出了自己的AI基准测试工具xbench。

有鉴于此,谷歌也坐不住了。

01

日前爆料称,谷歌方面计划推出开源框架LMEval,为大语言模型和多模态模型提供标准化的评测工具。基于LMEval框架,研究人员和开发者只需设置一次基准,就能展开标准化的评测流程,可以大幅简化评测工作,从而节省时间和资源。

具体来说,谷歌的LMEval支持旨在简化LLM访问和管理的开源项目LiteLLM,并确保测试能够横跨Azure、AWS、HuggingFace、Cohere、Ollama等主要平台。此外,据称LMEval不仅支持文本评测,还涵盖了图像和代码等当下的热门领域,并能识别大模型采用的“规避策略”,即故意给出模糊回答、以避免生成有风险的内容。

除了测试AI大模型的性能,作为业界巨头,谷歌还为LMEval引入了Giskard安全评分,以展示其规避有害内容的表现,百分比越高则代表安全性越强。同时为了打消开发者的顾虑,谷歌方面强调测试结果会存储在加密的SQLit数据库中,确保数据本地化、且不会被搜索引擎抓取。

02

可是谷歌旗下如今是有Gemini模型的,他们再做一个LMEval真的不是既当裁判员,又当运动员吗?

其实谷歌也是不得已而为之,毕竟当下AI大模型的基准测试可谓是群魔乱舞。比如,Meta最新的LIama 4模型之所以能成为大模型竞技场排名第一的开源模型,靠的是为大模型竞技场提供特殊版本。

众所周知,AI大模型的跑分其实是以做题为核心,即在规定的时间内答对基准测试榜单提出的问题,正确率越高、用时越短,模型的能力就越强。所以为了提高跑分成绩,AI大模型就好似高三的学生一样,不断地在各个榜单的题库里刷题。可问题在于,AI大模型的学习能力和运行效率要远胜过高三的学生,所以随着题库纷纷被刷爆,一个基准测试的有效时间就会急剧缩短。

比如在过去两年间,包含了上至数论、代数、几何等高级数学问题的GSM8k、MATH数学基准测试中,AI大模型的正确率动辄就可以达到80%。但问题在于,为了让AI大模型在数学测试中表现更好,就拿题库里的真题来训练,这样并不会增强AI的泛化能力,只是可以在基准测试中占到便宜,从而让自家的模型有更强的传播价值。

以至于OpenAI的开发者调侃,我们总是在开发新的训练算法和模型来刷榜,而第三方又创造出更难的榜单,之后再重复这个循环。微软CEO萨蒂亚·纳德拉更是曾经在播客节目中吐槽到,“我们自称取得了一些AGI里程碑,这只是无意义的基准作弊(benchmark hacking)。”

03

所以当下AI业界有一个无法回避的难题,那就是想要真实、且客观地反映AI的能力正变得越来越困难,业界亟待构建一个评价体更加科学、长效和如实反映AI客观能力的体系。然而遗憾的是,一如PC厂商能针对鲁大师能进行专项调优、手机厂商针对DxOMark进行特调一样,科学、长效和真实几乎是不可能的三角。

现在AI行业的解决方案是“去中心化”,即推出尽可能多元化的基准测试,来让AI大模型的“刷题”效率下降。可去中心化也是有代价的,毕竟不同榜单使用的API、数据格式和基准设置不同,这就使得大模型的开发者想要完整地展现模型的能力,需要花费大量的时间和精力。所以谷歌推出的LMEval虽然并非是一个直接可用的榜单,而是一套标准化的评测流程。

简单来说,谷歌这次是要给AI大模型的跑分制定一套标准,只要使用LMEval,无论是测试AI大模型的文本、视频、数学,还是代码等能力,就都不需要再切换API、对接不同的测试集。

本文来自微信公众号 “三易生活”(ID:IT-3eLife),作者:三易菌,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI大模型 LMEval 基准测试 标准化 谷歌
相关文章