热点
关于我们
xx
xx
"
自动化评估
" 相关文章
如果竞争对手发布“高风险”AI OpenAI 可能会“调整”其安全措施
Cnbeta
2025-04-15T22:22:45.000000Z
六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究
新智元
2025-01-25T17:07:25.000000Z
直播|LLM-as-a-Judge热门论文,当AI担任“评估者”综述分享,AI+金融圆桌交流,IDEA研究院
智源社区
2025-01-14T09:20:38.000000Z
让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜
智源社区
2025-01-14T09:05:19.000000Z
Meet Android Agent Arena (A3): A Comprehensive and Autonomous Online Evaluation System for GUI Agents
MarkTechPost@AI
2025-01-04T01:40:47.000000Z
Amazon Researchers Propose a New Method to Measure the Task-Specific Accuracy of Retrieval-Augmented Large Language Models (RAG)
MarkTechPost@AI
2024-07-24T09:04:21.000000Z