热点
关于我们
xx
xx
"
LLM评估
" 相关文章
告别刷榜内卷!清华×百度提出Feedbacker,开启LLM深度洞察新评估时代
PaperWeekly
2025-05-26T06:17:31.000000Z
It's really hard to make scheming evals look realistic
少点错误
2025-05-24T19:27:31.000000Z
让 LLM 来评判 | 技巧与提示
Hugging Face
2025-05-13T16:51:55.000000Z
Copilot Arena: A platform for code
ΑΙhub
2025-04-28T08:40:05.000000Z
Atla AI Introduces the Atla MCP Server: A Local Interface of Purpose-Built LLM Judges via Model Context Protocol (MCP)
MarkTechPost@AI
2025-04-22T15:20:41.000000Z
A Hands-On Tutorial: Build a Modular LLM Evaluation Pipeline with Google Generative AI and LangChain
MarkTechPost@AI
2025-04-18T05:10:41.000000Z
让 LLM 来评判 | 技巧与提示
智源社区
2025-04-10T08:42:31.000000Z
让 LLM 来评判 | 技巧与提示
Hugging Face
2025-04-09T10:53:29.000000Z
让 LLM 来评判 | 评估你的评估结果
Hugging Face
2025-04-09T10:06:26.000000Z
让 LLM 来评判 | 奖励模型相关内容
Hugging Face
2025-04-09T10:06:25.000000Z
A Code Implementation of Using Atla’s Evaluation Platform and Selene Model via Python SDK to Score Legal Domain LLM Outputs for GDPR Compliance
MarkTechPost@AI
2025-03-31T07:15:28.000000Z
Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场
新智元
2025-03-03T06:10:47.000000Z
让 LLM 来评判 | 设计你自己的评估 prompt
Hugging Face
2025-02-28T16:18:29.000000Z
任意Prompt就能给大模型实时排名!竞技场新玩法,还能自动找最佳AI来作答
智源社区
2025-02-28T13:03:53.000000Z
任意Prompt就能给大模型实时排名,竞技场新玩法,还能自动找最佳AI来作答
36kr-科技
2025-02-27T11:22:02.000000Z
Mastering LLM Techniques: Evaluation
Nvidia Developer
2025-02-16T15:07:09.000000Z
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
智源社区
2025-02-13T09:33:15.000000Z
让 LLM 来评判 | 评估你的评估结果
智源社区
2025-02-11T03:22:24.000000Z
让 LLM 来评判 | 评估你的评估结果
Hugging Face
2025-02-10T16:15:18.000000Z
Track LLM model evaluation using Amazon SageMaker managed MLflow and FMEval
AWS Machine Learning Blog
2025-01-28T17:32:24.000000Z