热点
关于我们
xx
xx
"
AI基准测试
" 相关文章
Agent时代需要新的基准测试:红杉中国推出xbench,量化智能体真实世界生产力
MIT 科技评论 - 本周热榜
2025-05-29T00:06:39.000000Z
Agent时代需要新的基准测试:红杉中国推出xbench,量化智能体真实世界生产力
DeepTech深科技
2025-05-27T12:57:01.000000Z
红杉中国发布xbench 首个由投资机构打造的AI基准测试
Cnbeta
2025-05-26T02:02:31.000000Z
今天,我们推出xbench
红杉汇
2025-05-26T01:06:54.000000Z
曝GPT-4.1下周发布;宇树机器人格斗,1个月内开打|AI日报
智源社区
2025-04-12T10:42:41.000000Z
斯坦福:2025 AI Index报告 中美AI模型差距缩小至0.7%
互联网数据资讯网-199IT
2025-04-09T13:07:09.000000Z
本周 AI Benchmark 方向论文推荐
魔搭ModelScope社区
2025-04-09T10:06:25.000000Z
全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话
智源社区
2025-03-26T05:00:58.000000Z
ARC Prize launches its toughest AI benchmark yet: ARC-AGI-2
AI News
2025-03-25T16:47:24.000000Z
OpenAI research lead Noam Brown thinks certain AI ‘reasoning’ models could’ve arrived decades ago
TechCrunch News
2025-03-20T05:45:58.000000Z
AI公平性测试竟是“表面工程”?科学家用8个评测基准揪出模型隐形偏见
MIT 科技评论 - 本周热榜
2025-03-20T05:11:54.000000Z
OpenAI 员工公开指责 xAI:Grok 3 基准测试结果具有误导性
IT之家
2025-02-23T01:37:38.000000Z
Did xAI lie about Grok 3’s benchmarks?
TechCrunch News
2025-02-22T23:03:30.000000Z
This Week in AI: Maybe we should ignore AI benchmarks for now
TechCrunch News
2025-02-19T18:48:49.000000Z
AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
机器之心
2025-02-17T07:10:30.000000Z
These researchers used NPR Sunday Puzzle questions to benchmark AI ‘reasoning’ models
TechCrunch News
2025-02-16T22:32:31.000000Z
These researchers used NPR Sunday Puzzle questions to benchmark AI ‘reasoning’ models
TechCrunch News
2025-02-06T06:12:36.000000Z
Understanding Benchmarks and motivating Evaluations
少点错误
2025-02-06T01:51:47.000000Z
Ai2 says its new AI model beats one of DeepSeek’s best
TechCrunch News
2025-01-30T14:05:58.000000Z
小米汽车一月订单超 4 万,远超产能;华为鸿蒙 PC 望今年上市;字节发布 AI 中文开发环境IDE,目标全球开发者
极客公园官网
2025-01-21T00:19:43.000000Z