AI评测_Fishai

热点

"AI评测" 相关文章

AI也怕压力大？REST多题评测挑战推理极限，DeepSeek性能暴跌近30%

PaperWeekly 2025-07-27T09:01:18.000000Z

马斯克吹牛了吗？Grok 4第一波实测出炉：既能完虐o3，也菜到数不清6根手指

机器之心 2025-07-15T11:01:42.000000Z

上海交大/上海AI Lab翟广涛：当评测不再重要，AGI就实现了

机器之心 2025-07-15T09:19:58.000000Z

AI的“镀金时代”该结束了：当高分不再等于高能，如何找到真正能“干活”的大模型？

MIT 科技评论 - 本周热榜 2025-07-11T01:01:31.000000Z

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

新智元 2025-06-23T09:26:18.000000Z

6大模型决战高考数学新一卷：豆包、元宝并列第一 OpenAI o3竟惨败垫底

Cnbeta 2025-06-08T06:47:35.000000Z

6大模型决战高考数学新一卷：豆包、元宝并列第一，OpenAI o3竟惨败垫底

36kr 2025-06-08T01:44:12.000000Z

斯坦福大学：DeepSeek R1医疗大模型评测胜率66%领先

互联网数据资讯网-199IT 2025-06-03T14:07:11.000000Z

[数智] 中国电信研究院发布AI终端评测体系

中国科技报 2025-06-02T20:27:26.000000Z

SOTA大模型遇上加密数据评测：Qwen3未破10%，o1也栽了丨上海AI Lab等联合研究

量子位 2025-05-29T10:00:12.000000Z

用红杉最新试题测试“无限流”Agent ，Flowith Neo能不能打？

钛媒体：引领未来商业与生活新知 2025-05-28T12:11:30.000000Z

速递｜AI排行榜独角兽诞生：LM Arena获1亿美元融资，估值6亿美元能否洗刷"刷分"指控？

Z Potentials 2025-05-22T04:41:44.000000Z

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

智源社区 2025-05-17T05:23:16.000000Z

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

量子位 2025-05-16T07:10:19.000000Z

Study accuses LM Arena of helping top AI labs game its benchmark

TechCrunch News 2025-05-01T00:16:26.000000Z

Gemini-2.0夺冠！全球首个几何推理专项评测出炉，淘天集团出品

智源社区 2025-04-29T14:14:46.000000Z

速递｜不站队的AI裁判要赚钱了？Chatbot Arena转型公司化运营且计划融资

Z Potentials 2025-04-21T09:41:20.000000Z

从「表面真实性」到「内在真实性」，南洋理工S-Lab与上海AI Lab联合推出VBench-2.0：面向视频生成新世代的评测框架

我爱计算机视觉 2025-04-05T12:51:59.000000Z

从「表面真实性」到「内在真实性」，南洋理工S-Lab与上海AI Lab联合推出VBench-2.0：面向视频生成新世代的评测框架

我爱计算机视觉 2025-04-05T12:51:58.000000Z

GPT-4.5 创造力比 GPT-4o 弱，浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

IT之家 2025-04-04T04:23:40.000000Z

Copyright © 2019 FISHAI.All Rights Reserved