热点
"数据污染" 相关文章
DeepSeek流量暴跌,要凉了?是它幻觉太严重还是它在闷声发大财?
36kr 2025-07-28T23:46:19.000000Z
Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks
cs.AI updates on arXiv.org 2025-07-24T05:31:26.000000Z
「0污染」LLM理解基准来了!20000道题14个学科全覆盖,来自微软
智源社区 2025-07-19T10:01:55.000000Z
「0污染」LLM理解基准来了!20000道题14个学科全覆盖,来自微软
新智元 2025-07-18T14:34:16.000000Z
SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks
cs.AI updates on arXiv.org 2025-07-16T05:00:45.000000Z
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
cs.AI updates on arXiv.org 2025-07-15T04:24:17.000000Z
AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限
魔搭ModelScope社区 2025-07-08T06:15:40.000000Z
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark
cs.AI updates on arXiv.org 2025-06-30T04:14:30.000000Z
ICML 2025 | 用“人类考试法”戳破AI泡沫:构建能力导向的自适应测评新范式
PaperWeekly 2025-05-27T06:22:33.000000Z
Large Language Models Are Memorizing the Datasets Meant to Test Them
Unite.AI 2025-05-16T13:37:37.000000Z
How Generative Models are Ruining Themselves
Communications of the ACM - Artificial Intelligence 2025-04-18T17:37:37.000000Z
大模型混入0.001%假数据就「中毒」,成本仅5美元!NYU新研究登Nature子刊
硅星人Pro 2025-02-07T16:24:37.000000Z
大模型混入0.001%假数据就「中毒」,成本仅5美元!NYU新研究登Nature子刊
智源社区 2025-02-05T14:44:38.000000Z
大模型混入0.001%假数据就「中毒」,成本仅5美元,NYU新研究登Nature子刊
36kr-科技 2025-02-05T03:02:46.000000Z
大模型混入0.001%假数据就「中毒」,成本仅5美元!NYU新研究登Nature子刊
新智元 2025-02-04T16:15:29.000000Z
斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库
量子位 2025-01-06T07:54:25.000000Z
阿里开始抓工牌;DeepSeek 新模型误认身份被疑套壳?谷歌被爆军心不稳,仅 AI 部门士气高涨 | AI周报
AI前线 2025-01-06T07:48:44.000000Z
国产大模型DeepSeek疑翻车:自称是ChatGPT
快科技资讯 2024-12-31T03:12:02.000000Z
自动评估基准 | 技巧与提示
智源社区 2024-12-28T05:01:57.000000Z
自动评估基准 | 技巧与提示
Hugging Face 2024-12-27T11:01:40.000000Z