全文摘要 1、GROK4多模态能力测试与对比 ·北京烤鸭调料盘测试:针对复杂菜品图的多模态识别能力测试,选北京烤鸭调料盘作测试图,该图信息量大,多数大模型读图仅能读出少量信息。测试目标是识别图中菜品,OpenAI与谷歌能准确识别;GROK4本次仅描述为‘调料’,未指出是北京烤鸭调料,但曾有详细分析记录,反映其多模态识别能力不稳定。 ·数人图识别测试:数人图识别测试目标为识别图片中人数,真实答案15人。OpenAI将图片切分后搜索,谷歌固定一人按圈搜索,均能准确计数。GROK4工具调用失败,猜测人