热点
关于我们
xx
xx
"
评测基准
" 相关文章
大模型一体机性能标准框架研讨会将于8月1日召开
界面快报
2025-07-29T06:57:34.000000Z
蚂蚁数科正式发布金融推理大模型
e公司-快讯
2025-07-28T03:25:24.000000Z
你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞
机器之心
2025-07-27T09:18:45.000000Z
美团开源OIBench与CoreCodeBench:揭示大模型编程能力的真实水平
掘金 人工智能
2025-07-18T06:42:47.000000Z
500万视频数据集+全新评测框架!北大开源主体一致性视频生成领域新基建OpenS2V-Nexus,生成视频 「像」 又 「自然」
机器之心
2025-07-08T16:27:30.000000Z
OCR-Reasoning:揭秘多模态大模型在复杂图文推理中的真实能力
PaperAgent
2025-06-23T13:29:33.000000Z
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位
2025-04-19T06:55:32.000000Z
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
智源社区
2025-04-07T02:07:43.000000Z
拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式
我爱计算机视觉
2025-04-04T13:32:41.000000Z
拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式
我爱计算机视觉
2025-03-28T15:05:18.000000Z
浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025
智源社区
2025-02-10T00:57:15.000000Z
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
量子位
2025-01-06T07:58:05.000000Z
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
智源社区
2025-01-03T16:52:05.000000Z
百川智能发布全链路领域增强金融大模型 Baichuan4-Finance,测试成绩领先 GPT-4o
IT之家
2024-12-23T03:37:19.000000Z
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
智源社区
2024-11-21T04:52:58.000000Z
NeurIPS D&B 2024 | 突破短视频局限!MMBench-Video全面解读MLLM视频理解能力
魔搭ModelScope社区
2024-11-07T12:52:11.000000Z
NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
机器之心
2024-11-04T07:25:26.000000Z
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
智源社区
2024-10-31T09:08:01.000000Z
ComplexBench:LLM 多约束复杂指令遵循新基准
GLM大模型
2024-10-24T18:01:29.000000Z
北大AI奥数评测,o1-mini比o1-preview分数还高
智源社区
2024-09-24T06:23:13.000000Z