热点
关于我们
xx
xx
"
评估
" 相关文章
工信部等部门发布《关于开展石化化工行业老旧装置摸底评估的通知》
韭研公社
2025-07-30T05:39:05.000000Z
Inverse Scaling in Test-Time Compute
cs.AI updates on arXiv.org
2025-07-22T04:34:02.000000Z
Lessons from the TREC Plain Language Adaptation of Biomedical Abstracts (PLABA) track
cs.AI updates on arXiv.org
2025-07-21T04:06:44.000000Z
BetterBriefs:2025年全球创意报告
互联网数据资讯网-199IT
2025-07-16T22:01:31.000000Z
The Weighted Perplexity Benchmark: Tokenizer-Normalized Evaluation for Language Model Comparison
少点错误
2025-07-07T21:47:33.000000Z
New Paper: It is time to move on from MCQs for LLM Evaluations
少点错误
2025-07-06T11:49:29.000000Z
Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue Summarization
cs.AI updates on arXiv.org
2025-07-04T04:08:31.000000Z
How Metacognitive Architectures Remember Their Own Thoughts: A Systematic Review
cs.AI updates on arXiv.org
2025-07-03T04:07:24.000000Z
博士论文 | Stanford 2025 | 控制语言模型 184页 | 扩散语言模型作者Xiang Lisa Li
智源社区
2025-06-23T05:25:33.000000Z
苹果的论文被硅谷AI圈围殴了
cnBeta全文版
2025-06-22T04:20:22.000000Z
AI Safety at the Frontier: Paper Highlights, May '25
少点错误
2025-06-17T17:17:33.000000Z
大模型评估排障指南 | 关于可复现性
Hugging Face
2025-06-12T02:32:47.000000Z
从零开始搭建RAG系统系列(十二):RAG系统评估及测评
掘金 人工智能
2025-06-12T02:18:51.000000Z
人类高考“封王”的大模型,离真正的“AI状元”还有多远?
36氪 - 科技频道
2025-06-11T11:19:40.000000Z
AutoJudger|一个多模态大模型的自主评测智能体
智源社区
2025-06-11T10:58:06.000000Z
智能的路径
掘金 人工智能
2025-06-09T06:03:24.000000Z
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
36氪 - 科技频道
2025-06-03T09:34:23.000000Z
姚顺雨提到的「AI下半场」,产品评估仍被误解
机器之心
2025-06-02T06:54:11.000000Z
每周AI论文速递(250526-250530)
掘金 人工智能
2025-06-02T00:23:00.000000Z
Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims
少点错误
2025-05-29T18:47:30.000000Z