数据污染_Fishai

热点

"数据污染" 相关文章

DeepSeek流量暴跌，要凉了？是它幻觉太严重还是它在闷声发大财？

36kr 2025-07-28T23:46:19.000000Z

Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks

cs.AI updates on arXiv.org 2025-07-24T05:31:26.000000Z

「0污染」LLM理解基准来了！20000道题14个学科全覆盖，来自微软

智源社区 2025-07-19T10:01:55.000000Z

「0污染」LLM理解基准来了！20000道题14个学科全覆盖，来自微软

新智元 2025-07-18T14:34:16.000000Z

SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks

cs.AI updates on arXiv.org 2025-07-16T05:00:45.000000Z

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

cs.AI updates on arXiv.org 2025-07-15T04:24:17.000000Z

AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限

魔搭ModelScope社区 2025-07-08T06:15:40.000000Z

MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

cs.AI updates on arXiv.org 2025-06-30T04:14:30.000000Z

ICML 2025 | 用“人类考试法”戳破AI泡沫：构建能力导向的自适应测评新范式

PaperWeekly 2025-05-27T06:22:33.000000Z

Large Language Models Are Memorizing the Datasets Meant to Test Them

Unite.AI 2025-05-16T13:37:37.000000Z

How Generative Models are Ruining Themselves

Communications of the ACM - Artificial Intelligence 2025-04-18T17:37:37.000000Z

大模型混入0.001%假数据就「中毒」，成本仅5美元！NYU新研究登Nature子刊

硅星人Pro 2025-02-07T16:24:37.000000Z

大模型混入0.001%假数据就「中毒」，成本仅5美元！NYU新研究登Nature子刊

智源社区 2025-02-05T14:44:38.000000Z

大模型混入0.001%假数据就「中毒」，成本仅5美元，NYU新研究登Nature子刊

36kr-科技 2025-02-05T03:02:46.000000Z

大模型混入0.001%假数据就「中毒」，成本仅5美元！NYU新研究登Nature子刊

新智元 2025-02-04T16:15:29.000000Z

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

量子位 2025-01-06T07:54:25.000000Z

阿里开始抓工牌；DeepSeek 新模型误认身份被疑套壳？谷歌被爆军心不稳，仅 AI 部门士气高涨 | AI周报

AI前线 2025-01-06T07:48:44.000000Z

国产大模型DeepSeek疑翻车：自称是ChatGPT

快科技资讯 2024-12-31T03:12:02.000000Z

自动评估基准 | 技巧与提示

智源社区 2024-12-28T05:01:57.000000Z

自动评估基准 | 技巧与提示

Hugging Face 2024-12-27T11:01:40.000000Z

Copyright © 2019 FISHAI.All Rights Reserved