热点
关于我们
xx
xx
"
模型评估
" 相关文章
Study accuses LM Arena of helping top AI labs game its benchmark
TechCrunch News
2025-05-01T00:16:26.000000Z
机器学习入门(八)模型评价与优化
掘金 人工智能
2025-04-28T08:32:52.000000Z
A guide to deciding what AI model to use in GitHub Copilot
The GitHub Blog
2025-04-24T16:08:36.000000Z
OpenAI的GPT-4.1可能与该公司之前的AI模型表现不太一致
Cnbeta
2025-04-23T20:12:25.000000Z
Llama 4 详细评测:开源模型的全面倒退?
Founder Park
2025-04-09T10:53:10.000000Z
一文读懂!多语言大模型数据研发在大模型时代的实战全解
阿里技术
2025-04-09T10:06:10.000000Z
OpenAI Introduces the Evals API: Streamlined Model Evaluation for Developers
MarkTechPost@AI
2025-04-09T06:40:27.000000Z
Alignment Faking Revisited: Improved Classifiers and Open Source Extensions
少点错误
2025-04-08T17:42:18.000000Z
Llama 4 详细评测:开源模型的全面倒退?
智源社区
2025-04-08T12:38:19.000000Z
Llama 4遭竞技场背刺,实锤用特供版刷榜,2000+对战记录公开
36kr
2025-04-08T11:28:47.000000Z
ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI
我爱计算机视觉
2025-04-05T12:52:00.000000Z
Evaluate models or RAG systems using Amazon Bedrock Evaluations – Now generally available
AWS Machine Learning Blog
2025-04-04T15:25:35.000000Z
ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI
我爱计算机视觉
2025-04-02T13:26:59.000000Z
Show, not tell: GPT-4o is more opinionated in images than in text
少点错误
2025-04-02T08:53:09.000000Z
Does Summarization Affect LLM Performance?
少点错误
2025-04-01T02:47:17.000000Z
LLM 文档摘要:技术、指标和模型
掘金 人工智能
2025-03-31T09:21:18.000000Z
网上晒图要当心,AI六成可能知道你在哪儿
36kr-科技
2025-03-31T02:07:45.000000Z
How to mitigate sandbagging
少点错误
2025-03-23T17:22:25.000000Z
你正在做的大模型评测,可能有一半都是无用功 | 上海AI Lab&上交&浙大出品
量子位
2025-03-20T05:15:31.000000Z
本周 AI Benchmark 方向论文推荐
魔搭ModelScope社区
2025-03-16T14:04:43.000000Z