PaperWeekly 前天 14:17
告别刷榜内卷!清华×百度提出Feedbacker,开启LLM深度洞察新评估时代
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了大型语言模型(LLM)评估的革新,指出当前评估范式过度依赖排行榜,忽略了模型在实际应用中的具体表现和改进方向。研究团队提出了Feedbacker框架,旨在将评估目标从“排名竞争”转向“诊断反馈”。该框架通过树状能力图谱、动态评估标准和可视化分析工具,帮助快速识别模型的优势与薄弱环节,为模型优化提供精准导航。研究团队开源了评估框架与数据集,旨在构建更科学的LLM评估生态。

💡现有LLM评估范式的挑战:当前评估主要依赖于基于人类评判的排行榜和自动评估基准,但这些方法存在成本高昂、反馈滞后、评估片面以及缺乏针对性改进方向等问题。

🌱 Feedbacker框架的核心创新:该框架包含三大关键组件,包括树状能力图谱、动态评估标准(PC²点评估法)和可视化分析工具。树状能力图谱利用推理模型构建可扩展的分类体系;PC²点评估法通过预比较生成动态评估标准,提高评估精度;可视化分析工具帮助快速识别模型弱点。

🚀 评估范式转变的意义:Feedbacker框架实现了从“分数驱动”到“反馈驱动”的评估范式转变,为模型优化提供了精准的指导。研究团队开源了评估框架与数据集,推动更科学的LLM评估生态的构建。PC²点评估法在保持线性时间复杂度的同时,实现了与pairwise evaluation相媲美的精度,对自我进化和偏好数据构造等方向具有深远影响。

原创 让你更懂AI的 2025-05-26 13:39 北京

终结LLM评估的「应试教育」

论文标题:

From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback

论文地址:

https://arxiv.org/abs/2505.06698

项目主页:

https://liudan193.github.io/Feedbacker/

代码地址:

https://github.com/liudan193/Feedbacker

研究背景

随着大模型能力的快速演进,现有评估范式正面临深刻挑战:

在 LLM 评估的第一阶段,基于人类评判的排行榜(如 Chatbot Arena)依赖大量人工标注实现模型排序,尽管直观但成本高昂,且难以及时反馈。

进入第二阶段,自动评估基准(如 MT-Bench、Arena-Hard)虽提升了评估效率,但却陷入了「模拟人类排名」的误区,仅提供总分排名,无法揭示模型的具体优势与缺陷。

第二阶段的这种「黑箱式评估」带来了两大核心问题:

动机 / 切入点

本文首次提出评估范式的范式转移:

评估目标应从「排名竞争」转向「诊断反馈」

基于这一洞见,团队开发了 Feedbacker 框架,并引入三大创新组件:

1. 树状能力图谱:突破传统 embedding 聚类的分类方法,充分利用先进的推理模型(reasoning model),实现更加合理的自动分类构建。最终形成覆盖写作、角色扮演等六大领域的可扩展分类体系。

2. 动态评估标准:通过 PC² 点评估法(Pre-Comparison Criteria)生成场景化评判准则,确保评估标准动态调整,令 pointwise evaluation 的准确性媲美 pairwise evaluation。

3. 可视化分析:提供多样化的可视化工具和自动分析器,帮助快速识别模型的薄弱环节,支持针对性优化。

方法

3.1 用户查询图谱构建(TaxBuilder)

3.2 评估范式革新(PC²点评估法)

3.3 诊断工具链

意义与展望

1. 评估范式转变:Feedbacker 率先实现从「分数驱动」到「反馈驱动」的评估范式转变,为模型优化提供精准导航。研究团队已开源评估框架与数据集,推动构建更科学的 LLM 评估生态。

2. 评估方法升级:借助预对比策略,PC²-pointwise evaluation 在保持线性时间复杂度的同时,达到了与 pairwise evaluation 相媲美的精度。这一方法对自我进化(self-evolve)和偏好数据构造等方向具有深远影响。

3. 数据合成规范化:TaxBuilder 充分发挥 reasoning model 的能力,实现自动分类法构建,不仅提升分类体系的合理性,还为数据合成提供了结构化指导。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM评估 Feedbacker 诊断反馈 树状能力图谱
相关文章