热点
"AI评估" 相关文章
2025.04.30 | 多模态检索增强生成;单样本强化学习提升推理。
HuggingFace 每日AI论文速递 2025-04-30T23:07:57.000000Z
Brakes on an intelligence explosion
Interconnects 2025-04-30T12:10:15.000000Z
How Patronus AI’s Judge-Image is Shaping the Future of Multimodal AI Evaluation
Unite.AI 2025-04-29T08:48:23.000000Z
OpenAI 姚顺雨:在 o3 发布之际,我们更该重新思考 AI 的意义
硅星GenAI 2025-04-19T07:01:17.000000Z
Z Tech | 世界模型能力如何评估?对话斯坦福大学李飞飞与吴佳俊团队,直播解析世界模型模型新基准WorldScore
Z Potentials 2025-04-19T06:47:51.000000Z
AI应用创业公司:大模型最近的突破,全是作弊
机器之心 2025-04-18T09:01:09.000000Z
A Hands-On Tutorial: Build a Modular LLM Evaluation Pipeline with Google Generative AI and LangChain
MarkTechPost@AI 2025-04-18T05:10:41.000000Z
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
IT之家 2025-04-10T00:03:37.000000Z
OpenAI launches program to design new ‘domain-specific’ AI benchmarks
TechCrunch News 2025-04-09T17:33:36.000000Z
Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开
智源社区 2025-04-09T12:52:48.000000Z
为什么 AI 模型离科学革命还差得很远?
Hugging Face 2025-04-09T10:53:29.000000Z
Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开
量子位 2025-04-09T10:19:20.000000Z
Open AI Releases PaperBench: A Challenging Benchmark for Assessing AI Agents’ Abilities to Replicate Cutting-Edge Machine Learning Research
MarkTechPost@AI 2025-04-02T21:10:27.000000Z
为什么 AI 模型离科学革命还差得很远?
智源社区 2025-03-27T16:18:46.000000Z
为什么 AI 模型离科学革命还差得很远?
掘金 人工智能 2025-03-27T11:42:48.000000Z
Progress from our Frontier Red Team
Newsroom Anthropic 2025-03-20T05:14:03.000000Z
Stacity: a Lock-In Risk Benchmark for Large Language Models
少点错误 2025-03-13T12:13:22.000000Z
人工智能代理不是玩具,而是工人|必须像评估劳动力一样评估AI代理
36kr 2025-03-11T06:50:52.000000Z
GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?
机器之心 2025-03-09T08:57:28.000000Z
Ground truth generation and review best practices for evaluating generative AI question-answering with FMEval
AWS Machine Learning Blog 2025-03-05T21:20:16.000000Z