Cnbeta 前天 15:42
低质论文激增:AI与公共数据集正在摧毁学术诚信
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近年来,基于公共数据集和人工智能生成的论文数量激增,引发了学术界的担忧。特别是在《科学报告》等期刊中,大量内容雷同的论文涌入,这些论文通常基于美国国家健康与营养调查(NHANES)的公开数据。这种现象表明,公共数据集正被滥用为“科研填词游戏”,而ChatGPT等AI工具的普及可能被用于改写相同结论以规避抄袭检测。此外,开放获取期刊和科研评价体系的弊端也加剧了这一问题,若不彻底改革激励机制,将严重损害科学的公信力。

📈 论文数量激增:2014至2021年间,基于NHANES数据的论文年均仅4篇,但2022年后数量飙升,截至2024年10月已达190篇,增速远超健康领域研究的整体水平。

⚙️ 论文生成模式:这些论文通常采用固定模式,即选定一种健康问题、一个关联因素及特定人群,通过替换变量生成“新发现”。

🤖 AI工具的潜在影响:ChatGPT等AI工具可能被用于改写相同结论以规避抄袭检测,进一步加剧了问题。

📊 数据选择性使用:许多论文选择性使用NHANES数据以追求统计学显著结果,导致假阳性率极高。例如,关于抑郁症的28篇研究中,仅13篇通过假阳性校正。

⚠️ 警示信号:使用NHANES的论文从2023年的4926篇增至2024年的7876篇,其他大型数据集如《全球疾病负担研究》也可能面临类似风险,揭示了科学出版和科研评价体系的弊端。

近年来,利用公共数据集和人工智能(AI)生成的论文数量急剧增加,引发学界担忧。《科学报告》(Scientific Reports)等期刊的编辑发现,大量内容雷同的论文涌入评审流程,这些论文均基于美国国家健康与营养调查(NHANES)的公开数据。

统计显示,2014至2021年间,此类论文年均仅4篇,但2022年后数量飙升,截至2024年10月已达190篇,增速远超健康领域研究的整体水平。

这些论文通常采用固定模式:选定一种健康问题、一个关联因素及特定人群,通过替换变量生成“新发现”。研究者指出,类似现象也出现在遗传学、文献计量学等领域,表明公共数据集正被滥用为“科研填词游戏”。此外,ChatGPT等AI工具的普及可能被用于改写相同结论以规避抄袭检测,而“论文工厂”的介入进一步加剧了问题。

分析发现,许多论文选择性使用NHANES数据以追求统计学显著结果,导致假阳性率极高。例如,关于抑郁症的28篇研究中,仅13篇通过假阳性校正。更广泛的数据显示,使用NHANES的论文从2023年的4926篇增至2024年的7876篇,其他大型数据集如《全球疾病负担研究》(Global Burden of Disease Study)也可能面临类似风险。

这一现象暴露了科学出版和科研评价体系的弊端。开放获取期刊通过收取高额费用发表低质论文,而研究者迫于职业压力追求数量而非质量。学界警告,若不彻底改革激励机制,问题将持续恶化,最终损害科学的公信力。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 公共数据 科研诚信 论文工厂 NHANES
相关文章