动点科技 2024年09月05日
研究:反复利用 AI 生成内容来训练 AI 可造成“模型崩溃”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

牛津大学研究发现,生成式AI软件仅依赖自身生成内容时,回答质量会恶化,出现“模型崩溃”,可能导致AI及互联网受影响,研究指出确保AI能访问非AI生成内容是实现其长期发展的唯一方法。

🎯生成式AI若仅依赖自身生成内容,回答质量会逐渐恶化。最初两次查询后答案开始偏离准确性,到第九次时回答已无意义,这种现象被称为“模型崩溃”。

💡“模型崩溃”会先影响少数代表性不足的数据,接着影响输出多样性,导致差异性减少,有时还会掩盖少数数据表现的恶化,可能带来严重后果。

🔍研究人员通过让AI模型基于自己生成的内容更新预训练的AI驱动的维基百科,确定了“模型崩溃”现象的存在,如维基百科条目内容变得难以理解。

📄大约57%的网络文本经AI算法翻译,若舒梅洛夫的研究属实,AI可能正在“自我毁灭”并影响互联网,实现AI长期发展需确保其能访问非AI生成内容并引入新人工内容。

据《福布斯》报道,牛津大学的伊利亚·舒梅洛夫博士与其团队发现,当生成式 AI 软件仅依赖于由 AI 生成的内容时,回答的质量开始恶化。这项研究已经发表在《自然》杂志上。

在最初的两次查询后,答案逐渐偏离准确性,到第五次时,质量显著下降,到了第九次连续查询时,回答已完全退化为无意义的胡言乱语。研究人员将这种生成式 AI 内容的循环过度使用称为“模型崩溃”,即 AI 在不断污染自己的训练集后,输出的内容逐渐偏离现实,最终变得毫无价值。

舒梅洛夫表示:“令人惊讶的是,模型崩溃发生得如此迅速且难以察觉。最初,它会影响到少数数据——那些代表性不足的数据。接着,它会影响输出的多样性,导致差异性减少。有时,你会观察到对多数数据的微小改进,但这种改进掩盖了少数数据表现的恶化。模型崩溃可能带来严重后果。”

研究人员通过一种方法确定了“模型崩溃”现象的存在:使用一个预训练的 AI 驱动的维基百科,然后让 AI 模型基于自己生成的内容进行更新。受污染数据的影响逐渐导致原本的训练集被侵蚀,输出的信息也随之变得难以理解。例如,在第九次查询循环后,研究中的维基百科条目从关于 14 世纪英国教堂尖顶的内容滑稽地变成了一篇关于各种颜色的短尾兔子的论文。

报道称,根据亚马逊网络服务(Amazon Web Services)团队在 6 月发布的另一项研究,大约 57% 的网络文本都经过了 AI 算法的翻译。如果互联网上的人类生成数据迅速被 AI 过滤内容覆盖,且舒梅洛夫的研究发现属实,那么 AI 可能正在“自我毁灭”——并同时“毁灭”互联网。

研究得出结论,要实现 AI 的长期可持续发展,唯一方法是确保其能够访问现有的非 AI 生成内容,并持续引入新的人工生成内容。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

生成式AI 模型崩溃 AI发展 内容质量
相关文章