低质论文激增：AI与公共数据集正在摧毁学术诚信

Cnbeta 前天 15:42

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

近年来，基于公共数据集和人工智能生成的论文数量激增，引发了学术界的担忧。特别是在《科学报告》等期刊中，大量内容雷同的论文涌入，这些论文通常基于美国国家健康与营养调查（NHANES）的公开数据。这种现象表明，公共数据集正被滥用为“科研填词游戏”，而ChatGPT等AI工具的普及可能被用于改写相同结论以规避抄袭检测。此外，开放获取期刊和科研评价体系的弊端也加剧了这一问题，若不彻底改革激励机制，将严重损害科学的公信力。

📈 论文数量激增：2014至2021年间，基于NHANES数据的论文年均仅4篇，但2022年后数量飙升，截至2024年10月已达190篇，增速远超健康领域研究的整体水平。

⚙️ 论文生成模式：这些论文通常采用固定模式，即选定一种健康问题、一个关联因素及特定人群，通过替换变量生成“新发现”。

🤖 AI工具的潜在影响：ChatGPT等AI工具可能被用于改写相同结论以规避抄袭检测，进一步加剧了问题。

📊 数据选择性使用：许多论文选择性使用NHANES数据以追求统计学显著结果，导致假阳性率极高。例如，关于抑郁症的28篇研究中，仅13篇通过假阳性校正。

⚠️ 警示信号：使用NHANES的论文从2023年的4926篇增至2024年的7876篇，其他大型数据集如《全球疾病负担研究》也可能面临类似风险，揭示了科学出版和科研评价体系的弊端。

近年来，利用公共数据集和人工智能（AI）生成的论文数量急剧增加，引发学界担忧。《科学报告》（Scientific Reports）等期刊的编辑发现，大量内容雷同的论文涌入评审流程，这些论文均基于美国国家健康与营养调查（NHANES）的公开数据。

统计显示，2014至2021年间，此类论文年均仅4篇，但2022年后数量飙升，截至2024年10月已达190篇，增速远超健康领域研究的整体水平。

这些论文通常采用固定模式：选定一种健康问题、一个关联因素及特定人群，通过替换变量生成“新发现”。研究者指出，类似现象也出现在遗传学、文献计量学等领域，表明公共数据集正被滥用为“科研填词游戏”。此外，ChatGPT等AI工具的普及可能被用于改写相同结论以规避抄袭检测，而“论文工厂”的介入进一步加剧了问题。

分析发现，许多论文选择性使用NHANES数据以追求统计学显著结果，导致假阳性率极高。例如，关于抑郁症的28篇研究中，仅13篇通过假阳性校正。更广泛的数据显示，使用NHANES的论文从2023年的4926篇增至2024年的7876篇，其他大型数据集如《全球疾病负担研究》（Global Burden of Disease Study）也可能面临类似风险。

这一现象暴露了科学出版和科研评价体系的弊端。开放获取期刊通过收取高额费用发表低质论文，而研究者迫于职业压力追求数量而非质量。学界警告，若不彻底改革激励机制，问题将持续恶化，最终损害科学的公信力。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签