全文摘要 1、网页端模型能力测评 ·十二生肖古风点餐应用测试:测试目标是生成与生肖关联的古风点餐页面。K2模型生成的页面含旋转太极八卦图背景,可将不同生肖与菜品对应,但存在生肖与烹饪方式搭配错误问题;R1模型的页面设计流程更优,但网页审美稍逊于Claude;Claude模型生成的页面菜品丰富度更高,不同生肖可选择的烹饪方式更多,太极旋转背景基本不可见,审美效果更好,但易出现‘Oops’错误。综合网页端表现,模型能力排序为Claude≥K2≈R1。 ·纪念碑谷类游戏测试:测试需处理3D视觉差与路径