热点
"IDA-Bench" 相关文章
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
智源社区 2025-06-11T12:30:37.000000Z
北大伯克利联手“拷问”大模型:最强Agent也才40分,新基准专治“不听话”的AI分析师
36氪 - 科技频道 2025-06-10T07:44:37.000000Z