热点
"AI评测" 相关文章
AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%
PaperWeekly 2025-07-27T09:01:18.000000Z
马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
机器之心 2025-07-15T11:01:42.000000Z
上海交大/上海AI Lab翟广涛:当评测不再重要,AGI就实现了
机器之心 2025-07-15T09:19:58.000000Z
AI的“镀金时代”该结束了:当高分不再等于高能,如何找到真正能“干活”的大模型?
MIT 科技评论 - 本周热榜 2025-07-11T01:01:31.000000Z
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
新智元 2025-06-23T09:26:18.000000Z
6大模型决战高考数学新一卷:豆包、元宝并列第一 OpenAI o3竟惨败垫底
Cnbeta 2025-06-08T06:47:35.000000Z
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
36kr 2025-06-08T01:44:12.000000Z
斯坦福大学:DeepSeek R1医疗大模型评测胜率66%领先
互联网数据资讯网-199IT 2025-06-03T14:07:11.000000Z
[数 智] 中国电信研究院发布AI终端评测体系
中国科技报 2025-06-02T20:27:26.000000Z
SOTA大模型遇上加密数据评测:Qwen3未破10%,o1也栽了丨上海AI Lab等联合研究
量子位 2025-05-29T10:00:12.000000Z
用红杉最新试题测试“无限流”Agent ,Flowith Neo能不能打?
钛媒体:引领未来商业与生活新知 2025-05-28T12:11:30.000000Z
速递|AI排行榜独角兽诞生:LM Arena获1亿美元融资,估值6亿美元能否洗刷"刷分"指控?
Z Potentials 2025-05-22T04:41:44.000000Z
GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式
智源社区 2025-05-17T05:23:16.000000Z
GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式
量子位 2025-05-16T07:10:19.000000Z
Study accuses LM Arena of helping top AI labs game its benchmark
TechCrunch News 2025-05-01T00:16:26.000000Z
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
智源社区 2025-04-29T14:14:46.000000Z
速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资
Z Potentials 2025-04-21T09:41:20.000000Z
从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架
我爱计算机视觉 2025-04-05T12:51:59.000000Z
从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架
我爱计算机视觉 2025-04-05T12:51:58.000000Z
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
IT之家 2025-04-04T04:23:40.000000Z