IT之家 2024年09月05日
研究:反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

牛津大学研究发现,当生成式AI软件仅依赖AI生成内容时,回答质量会恶化,出现‘模型崩溃’,可能导致AI及互联网受影响,研究认为确保AI能访问非AI生成内容是实现其长期发展的唯一方法。

🧐生成式AI过度依赖自身生成内容会引发‘模型崩溃’,在最初两次查询后答案逐渐偏离准确性,到第九次时回答已无意义,输出内容逐渐偏离现实,毫无价值。

📚研究人员通过让AI模型基于自己生成的内容更新预训练的AI驱动的维基百科,确定了‘模型崩溃’现象的存在,受污染数据使训练集被侵蚀,输出信息难以理解。

😱若互联网上人类生成数据被AI过滤内容覆盖,且该研究发现属实,AI可能正在‘自我毁灭’并‘毁灭’互联网,实现AI长期可持续发展需确保其能访问非AI生成内容并引入新人工生成内容。

IT之家 9 月 5 日消息,当地时间 9 月 4 日,据《福布斯》报道,牛津大学的伊利亚・舒梅洛夫博士和他的团队发现,当生成式 AI 软件仅依赖于由 AI 生成的内容时,回答的质量开始恶化。这项研究已经发表在《自然》杂志上。

在最初的两次查询后,答案逐渐偏离准确性,到第五次时,质量显著下降,到了第九次连续查询时,回答已完全退化为无意义的胡言乱语。研究人员将这种生成式 AI 内容的循环过度使用称为“模型崩溃”,即 AI 在不断污染自己的训练集后,输出的内容逐渐偏离现实,最终变得毫无价值。

舒梅洛夫表示:“令人惊讶的是,模型崩溃发生得如此迅速且难以察觉。最初,它会影响到少数数据 —— 那些代表性不足的数据。接着,它会影响输出的多样性,导致差异性减少。有时,你会观察到对多数数据的微小改进,但这种改进掩盖了少数数据表现的恶化。模型崩溃可能带来严重后果。”

研究人员通过一种方法确定了“模型崩溃”现象的存在:使用一个预训练的 AI 驱动的维基百科,然后让 AI 模型基于自己生成的内容进行更新。受污染数据的影响逐渐导致原本的训练集被侵蚀,输出的信息也随之变得难以理解。例如,在第九次查询循环后,研究中的维基百科条目从关于 14 世纪英国教堂尖顶的内容滑稽地变成了一篇关于各种颜色的短尾兔子的论文。

报道称,根据亚马逊网络服务(Amazon Web Services)团队在 6 月发布的另一项研究,大约 57% 的网络文本都经过了 AI 算法的翻译。如果互联网上的人类生成数据迅速被 AI 过滤内容覆盖,且舒梅洛夫的研究发现属实,那么 AI 可能正在“自我毁灭”—— 并同时“毁灭”互联网。

研究得出结论,要实现 AI 的长期可持续发展,唯一方法是确保其能够访问现有的非 AI 生成内容,并持续引入新的人工生成内容。

IT之家附研究链接:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

生成式AI 模型崩溃 AI发展 内容污染
相关文章