热点
"基准测试" 相关文章
Salesforce AI Introduces CRMArena-Pro: The First Multi-Turn and Enterprise-Grade Benchmark for LLM Agents
MarkTechPost@AI 2025-06-05T20:00:44.000000Z
AI还不会独自问诊,o3准确率仅为51.12%,上交大×SII开源高难度复杂疾病诊断测评集
智源社区 2025-06-05T14:43:10.000000Z
【复杂指令遵循 Benchmark】论文分享:CodeIF
掘金 人工智能 2025-06-03T02:48:06.000000Z
Multimodal Foundation Models Fall Short on Physical Reasoning: PHYX Benchmark Highlights Key Limitations in Visual and Symbolic Integration
MarkTechPost@AI 2025-05-31T02:45:51.000000Z
谷歌推出开源框架,要给AI大模型的跑分“立规矩”
36氪 - 科技频道 2025-05-28T23:34:15.000000Z
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
智源社区 2025-05-27T09:18:00.000000Z
红杉中国xbench全球首发,AI智能体真实战力揭榜!
智源社区 2025-05-27T09:17:59.000000Z
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials 2025-05-27T04:27:47.000000Z
Evaluating Enterprise-Grade AI Assistants: A Benchmark for Complex, Voice-Driven Workflows
MarkTechPost@AI 2025-05-24T03:45:49.000000Z
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位 2025-05-23T13:34:47.000000Z
Researchers Introduce MMLONGBENCH: A Comprehensive Benchmark for Long-Context Vision-Language Models
MarkTechPost@AI 2025-05-23T06:00:52.000000Z
How 2025 AI Forecasts Fared So Far
少点错误 2025-05-22T09:52:30.000000Z
速递|AI排行榜独角兽诞生:LM Arena获1亿美元融资,估值6亿美元能否洗刷"刷分"指控?
Z Potentials 2025-05-22T04:41:44.000000Z
UGMathBench:评估语言模型数学推理能力的动态基准测试数据集
魔搭ModelScope社区 2025-05-14T14:54:28.000000Z
UGMathBench:评估语言模型数学推理能力的动态基准测试数据集
魔搭ModelScope社区 2025-05-09T20:31:55.000000Z
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
量子位 2025-05-08T07:26:54.000000Z
港科大:BrowseComp-ZH测试显示主流AI中文网页理解准确率低于10%
互联网数据资讯网-199IT 2025-05-07T13:26:52.000000Z
大模型集体“挂科” 最新中文网页检索测试结果显示GPT-4o准确率仅6.2%
Cnbeta 2025-05-06T11:02:59.000000Z
大模型集体“挂科”,全新中文网页检索测试:GPT-4o准确率仅6.2%
36kr-科技 2025-05-06T09:02:26.000000Z
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
量子位 2025-05-06T07:33:39.000000Z