评测基准_Fishai

热点

"评测基准" 相关文章

大模型一体机性能标准框架研讨会将于8月1日召开

界面快报 2025-07-29T06:57:34.000000Z

蚂蚁数科正式发布金融推理大模型

e公司-快讯 2025-07-28T03:25:24.000000Z

你的AI管家可能正在「拆家」？最新研究揭秘家⽤具⾝智能体的安全漏洞

机器之心 2025-07-27T09:18:45.000000Z

美团开源OIBench与CoreCodeBench：揭示大模型编程能力的真实水平

掘金人工智能 2025-07-18T06:42:47.000000Z

500万视频数据集+全新评测框架！北大开源主体一致性视频生成领域新基建OpenS2V-Nexus，生成视频「像」又「自然」

机器之心 2025-07-08T16:27:30.000000Z

OCR-Reasoning：揭秘多模态大模型在复杂图文推理中的真实能力

PaperAgent 2025-06-23T13:29:33.000000Z

AI能看懂图像却算不好距离，上交时间-空间智能基准难倒9大顶尖多模态模型

量子位 2025-04-19T06:55:32.000000Z

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

智源社区 2025-04-07T02:07:43.000000Z

拒绝“随意运动”! 复旦联合微软提出MagicMotion：视频生成精准轨迹控制新范式

我爱计算机视觉 2025-04-04T13:32:41.000000Z

拒绝“随意运动”! 复旦联合微软提出MagicMotion：视频生成精准轨迹控制新范式

我爱计算机视觉 2025-03-28T15:05:18.000000Z

浙大&通义全面评测智能体复杂任务规划能力，18主流大模型全不及格｜ICLR2025

智源社区 2025-02-10T00:57:15.000000Z

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

量子位 2025-01-06T07:58:05.000000Z

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

智源社区 2025-01-03T16:52:05.000000Z

百川智能发布全链路领域增强金融大模型 Baichuan4-Finance，测试成绩领先 GPT-4o

IT之家 2024-12-23T03:37:19.000000Z

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

智源社区 2024-11-21T04:52:58.000000Z

NeurIPS D&B 2024 | 突破短视频局限！MMBench-Video全面解读MLLM视频理解能力

魔搭ModelScope社区 2024-11-07T12:52:11.000000Z

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

机器之心 2024-11-04T07:25:26.000000Z

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

智源社区 2024-10-31T09:08:01.000000Z

ComplexBench：LLM 多约束复杂指令遵循新基准

GLM大模型 2024-10-24T18:01:29.000000Z

北大AI奥数评测，o1-mini比o1-preview分数还高

智源社区 2024-09-24T06:23:13.000000Z

Copyright © 2019 FISHAI.All Rights Reserved