热点
"大模型评测" 相关文章
J1-Bench | 首个面向法律智能体的动态交互评测环境
智源社区 2025-07-31T00:53:12.000000Z
GLM-4.5发布,全网最全测评和使用教程来了!
Datawhale 2025-07-30T12:27:00.000000Z
GLM-4.5发布,全网最全测评和使用教程来了!
机器学习初学者 2025-07-29T23:59:24.000000Z
EvaLearn:AI下半场的全新评测范式!
机器之心 2025-07-28T17:03:21.000000Z
GPT-5实锤,悄悄上线代号「龙虾」!版本号曝光,实测编程惊人能改屎山代码
新智元 2025-07-26T14:00:25.000000Z
AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%
PaperWeekly 2025-07-26T10:20:59.000000Z
DeepSeek、千问、混元、文心、Kimi与智谱,六大国产大模型,谁是最强“金融分析师”?
36氪 - AI相关文章 2025-07-21T03:24:26.000000Z
2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到
新智元 2025-07-18T09:43:55.000000Z
唯一能做对「5位数字密码推理」的国产大模型出现了
夕小瑶科技说 2025-06-22T05:04:10.000000Z
我花了2天,找到了我觉得翻译质量最好的AI大模型。
数字生命卡兹克 2025-03-13T04:59:38.000000Z
DeepSeek和OpenAI、xAI、Anthropic哪家强?FlagEval智源评测
智源社区 2025-03-05T14:20:26.000000Z
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
智源社区 2025-03-05T07:41:35.000000Z
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
量子位 2025-03-04T10:09:30.000000Z
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
2025-01-06T07:48:45.000000Z
模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子
硅星人Pro 2024-12-25T02:55:16.000000Z
模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子
硅星GenAI 2024-12-23T13:01:05.000000Z
智源研究院“百模”评测结果:字节跳动多项第一 大厂AI整体领先
Cnbeta 2024-12-23T06:15:22.000000Z
智源发布FlagEval「百模」评测结果,丈量模型生态变局
机器之心 2024-12-20T10:09:21.000000Z
智源发布FlagEval“百模”评测结果 丈量模型生态变局
智源社区 2024-12-20T08:06:56.000000Z
全球百模争霸,国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉
新智元 2024-12-20T07:01:14.000000Z