热点
关于我们
xx
xx
"
评测基准
" 相关文章
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位
2025-04-19T06:55:32.000000Z
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
智源社区
2025-04-07T02:07:43.000000Z
拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式
我爱计算机视觉
2025-04-04T13:32:41.000000Z
拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式
我爱计算机视觉
2025-03-28T15:05:18.000000Z
浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025
智源社区
2025-02-10T00:57:15.000000Z
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
量子位
2025-01-06T07:58:05.000000Z
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
智源社区
2025-01-03T16:52:05.000000Z
百川智能发布全链路领域增强金融大模型 Baichuan4-Finance,测试成绩领先 GPT-4o
IT之家
2024-12-23T03:37:19.000000Z
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
智源社区
2024-11-21T04:52:58.000000Z
NeurIPS D&B 2024 | 突破短视频局限!MMBench-Video全面解读MLLM视频理解能力
魔搭ModelScope社区
2024-11-07T12:52:11.000000Z
NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
机器之心
2024-11-04T07:25:26.000000Z
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
智源社区
2024-10-31T09:08:01.000000Z
ComplexBench:LLM 多约束复杂指令遵循新基准
GLM大模型
2024-10-24T18:01:29.000000Z
北大AI奥数评测,o1-mini比o1-preview分数还高
智源社区
2024-09-24T06:23:13.000000Z