热点
"WorfBench" 相关文章
浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025
量子位 2025-02-11T16:25:01.000000Z
浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025
智源社区 2025-02-10T00:57:15.000000Z
WorFBench: A Benchmark for Evaluating Complex Workflow Generation in Large Language Model Agents
MarkTechPost@AI 2024-10-26T09:38:20.000000Z