热点
"多模态评估数据集" 相关文章
Plancraft: an evaluation dataset for planning with LLM agents
cs.AI updates on arXiv.org 2025-07-16T04:29:00.000000Z