AI评估_Fishai

热点

"AI评估" 相关文章

Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead

cs.AI updates on arXiv.org 2025-08-01T04:08:26.000000Z

Approximating Human Preferences Using a Multi-Judge Learned System

少点错误 2025-07-31T18:10:38.000000Z

Building a Comprehensive AI Agent Evaluation Framework with Metrics, Reports, and Visual Dashboards

MarkTechPost@AI 2025-07-29T20:46:50.000000Z

Interviewing Ross Taylor on the state of AI: Chinese open models, scaling reasoning, useful tools, and what comes next

Interconnects 2025-07-29T13:39:03.000000Z

ACL 2025｜驱动LLM强大的过程级奖励模型（PRMs）正遭遇「信任危机」？

机器之心 2025-07-27T15:00:11.000000Z

ACL 2025｜驱动LLM强大的过程级奖励模型（PRMs）正遭遇「信任危机」？

机器之心 2025-07-27T09:18:45.000000Z

ACL 2025 | 过程奖励模型深陷“信任泥潭”，PRMBench撕开伪高精度面具

PaperWeekly 2025-07-26T10:21:01.000000Z

解道奥赛题成本5000美元？陶哲轩警告，AI下一步要规模化的「更便宜」

机器之心 2025-07-25T10:19:42.000000Z

解道奥赛题成本5000美元？陶哲轩警告，AI下一步要规模化的「更便宜」

36kr-科技 2025-07-25T07:48:45.000000Z

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

IT之家 2025-07-24T03:23:58.000000Z

看似加速，实则拖慢：AI写代码让开发者效率倒退19%

机器学习初学者 2025-07-21T05:00:10.000000Z

大模型IMO25数学竞赛成绩公布了

36氪 AI 2025-07-18T07:19:47.000000Z

大模型转行土木工程！首个「打灰人」评估基准：检验读、改工程图纸能力

新智元 2025-07-18T05:07:17.000000Z

大模型转行土木工程，首个「打灰人」评估基准：检验读、改工程图纸能力

36kr-科技 2025-07-18T04:22:43.000000Z

大模型转行土木工程！首个「打灰人」评估基准：检验读、改工程图纸能力

新智元 2025-07-18T02:37:22.000000Z

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

机器之心 2025-07-17T17:29:48.000000Z

Quantifying calibration error in modern neural networks through evidence based theory

cs.AI updates on arXiv.org 2025-07-17T04:14:44.000000Z

AI进化时间表已现！LLM每7个月能力翻倍，2030年职场不复存在？

智源社区 2025-07-16T03:31:50.000000Z

什么都不做就能得分？智能体基准测试出现大问题

机器之心 2025-07-15T10:58:05.000000Z

Measuring AI Alignment with Human Flourishing

cs.AI updates on arXiv.org 2025-07-11T04:03:58.000000Z

Copyright © 2019 FISHAI.All Rights Reserved