热点
"评估" 相关文章
大模型评估排障指南 | 关于可复现性
Hugging Face 2025-06-12T02:32:47.000000Z
从零开始搭建RAG系统系列(十二):RAG系统评估及测评
掘金 人工智能 2025-06-12T02:18:51.000000Z
人类高考“封王”的大模型,离真正的“AI状元”还有多远?
36氪 - 科技频道 2025-06-11T11:19:40.000000Z
AutoJudger|一个多模态大模型的自主评测智能体
智源社区 2025-06-11T10:58:06.000000Z
智能的路径
掘金 人工智能 2025-06-09T06:03:24.000000Z
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
36氪 - 科技频道 2025-06-03T09:34:23.000000Z
姚顺雨提到的「AI下半场」,产品评估仍被误解
机器之心 2025-06-02T06:54:11.000000Z
每周AI论文速递(250526-250530)
掘金 人工智能 2025-06-02T00:23:00.000000Z
Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims
少点错误 2025-05-29T18:47:30.000000Z
It's hard to make scheming evals look realistic for LLMs
少点错误 2025-05-24T20:32:31.000000Z
It's really hard to make scheming evals look realistic for LLMs
少点错误 2025-05-24T20:17:30.000000Z
大模型进入 RL 下半场,模型评估为什么重要?
智源社区 2025-05-14T04:43:55.000000Z
AI 月报丨大模型下半场与产品成败的关键;拥有更多用户可能会让模型更强;全球算力投资又凉了一些
rss.maitayade.online 2025-05-13T15:58:52.000000Z
Notes on the Long Tasks METR paper, from a HCAST task contributor
少点错误 2025-05-04T23:27:26.000000Z
向量搜索:从入门到“踩坑”——工程师必须避开的 8 个陷阱
掘金 人工智能 2025-05-02T02:34:19.000000Z
AI 的下半场:质疑评估,聚焦真实世界
橘子汽水铺 2025-04-20T14:31:22.000000Z
AI 时代进入了下半场
宝玉的分享 2025-04-20T07:00:05.000000Z
The Second Half
2025-04-20T06:15:58.000000Z
《AI 的下半场》 最近非常重要的一篇文章 来自一线的 OpenAI 的 Agent 研究员 yaoshunyu 文中提出了一些反共识的 Inshgts: - 强化学习最重要的不是算法,而是先...
AI探索站 - 即刻圈子 2025-04-20T05:14:00.000000Z
万字解读OpenAI产品哲学:先发布再迭代、不要低估模型微调和评估
Founder Park 2025-04-19T06:21:12.000000Z