热点
"AI评估" 相关文章
从“比像素”到“懂语义”!Video-Bench实现视频质量精准打分,突破73%人类认同率
PaperWeekly 2025-06-17T09:22:40.000000Z
苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃
智源社区 2025-06-09T04:52:51.000000Z
苹果炮轰AI推理模型:全是假思考 所谓思考只是一种假象
Cnbeta 2025-06-08T09:37:27.000000Z
CVPR 2025:73%人类认同率,Video-Bench实现视频质量精准打
36氪 - 科技频道 2025-06-03T11:44:12.000000Z
How Good Are AI Agents at Real Research? Inside the Deep Research Bench Report
Unite.AI 2025-06-02T23:22:34.000000Z
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
智源社区 2025-05-30T07:48:50.000000Z
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
智源社区 2025-05-27T09:18:00.000000Z
红杉中国xbench全球首发,AI智能体真实战力揭榜!
智源社区 2025-05-27T09:17:59.000000Z
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
机器之心 2025-05-27T07:20:30.000000Z
ICML 2025 | 用“人类考试法”戳破AI泡沫:构建能力导向的自适应测评新范式
PaperWeekly 2025-05-27T06:22:33.000000Z
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials 2025-05-27T04:27:47.000000Z
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试
特工宇宙 2025-05-26T15:00:19.000000Z
AI 月报丨大模型下半场与产品成败的关键;拥有更多用户可能会让模型更强;全球算力投资又凉了一些
rss.maitayade.online 2025-05-14T20:04:24.000000Z
AI 的下半场:质疑评估,聚焦真实世界
橘子汽水铺 2025-05-14T14:20:41.000000Z
让GPT-4.1「头皮发麻的考试」!OpenAI给大模型上强度,AI能赢吗?
智源社区 2025-05-06T03:17:58.000000Z
2025.04.30 | 多模态检索增强生成;单样本强化学习提升推理。
HuggingFace 每日AI论文速递 2025-04-30T23:07:57.000000Z
Brakes on an intelligence explosion
Interconnects 2025-04-30T12:10:15.000000Z
How Patronus AI’s Judge-Image is Shaping the Future of Multimodal AI Evaluation
Unite.AI 2025-04-29T08:48:23.000000Z
OpenAI 姚顺雨:在 o3 发布之际,我们更该重新思考 AI 的意义
硅星GenAI 2025-04-19T07:01:17.000000Z
Z Tech | 世界模型能力如何评估?对话斯坦福大学李飞飞与吴佳俊团队,直播解析世界模型模型新基准WorldScore
Z Potentials 2025-04-19T06:47:51.000000Z