热点
"AI评估" 相关文章
Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead
cs.AI updates on arXiv.org 2025-08-01T04:08:26.000000Z
Approximating Human Preferences Using a Multi-Judge Learned System
少点错误 2025-07-31T18:10:38.000000Z
Building a Comprehensive AI Agent Evaluation Framework with Metrics, Reports, and Visual Dashboards
MarkTechPost@AI 2025-07-29T20:46:50.000000Z
Interviewing Ross Taylor on the state of AI: Chinese open models, scaling reasoning, useful tools, and what comes next
Interconnects 2025-07-29T13:39:03.000000Z
ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
机器之心 2025-07-27T15:00:11.000000Z
ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
机器之心 2025-07-27T09:18:45.000000Z
ACL 2025 | 过程奖励模型深陷“信任泥潭”,PRMBench撕开伪高精度面具
PaperWeekly 2025-07-26T10:21:01.000000Z
解道奥赛题成本5000美元?陶哲轩警告,AI下一步要规模化的「更便宜」
机器之心 2025-07-25T10:19:42.000000Z
解道奥赛题成本5000美元?陶哲轩警告,AI下一步要规模化的「更便宜」
36kr-科技 2025-07-25T07:48:45.000000Z
苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限
IT之家 2025-07-24T03:23:58.000000Z
看似加速,实则拖慢:AI写代码让开发者效率倒退19%
机器学习初学者 2025-07-21T05:00:10.000000Z
大模型IMO25数学竞赛成绩公布了
36氪 AI 2025-07-18T07:19:47.000000Z
大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力
新智元 2025-07-18T05:07:17.000000Z
大模型转行土木工程,首个「打灰人」评估基准:检验读、改工程图纸能力
36kr-科技 2025-07-18T04:22:43.000000Z
大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力
新智元 2025-07-18T02:37:22.000000Z
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI
机器之心 2025-07-17T17:29:48.000000Z
Quantifying calibration error in modern neural networks through evidence based theory
cs.AI updates on arXiv.org 2025-07-17T04:14:44.000000Z
AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?
智源社区 2025-07-16T03:31:50.000000Z
什么都不做就能得分?智能体基准测试出现大问题
机器之心 2025-07-15T10:58:05.000000Z
Measuring AI Alignment with Human Flourishing
cs.AI updates on arXiv.org 2025-07-11T04:03:58.000000Z