ReadHub 2024年08月13日
「AI 数据荒」雪上加霜,MIT 发现网页数据的公开共享正走向衰落
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MIT等机构研究发现开源数据集许可收紧,数据难以获取,对AI模型训练和学术研究造成阻碍,且AI数据共享空间限制增加,开放网络数据将逐年减少,需优化数据许可协议。

🎯MIT等机构指出开源数据集如C4、RefineWeb、Dolma等网站的数据许可收紧,大量数据无法轻易获取,严重影响了AI模型训练及学术研究的进程。

📋研究表明数据许可存在不对称性与不一致性,且与AI模型训练用途不匹配,这进一步加剧了问题的复杂性。

🚧AI数据共享空间限制增多,导致预测未来开放网络数据会逐年减少,形势愈发严峻。

MIT等机构的研究发现,开源数据集如C4、RefineWeb、Dolma等网站的数据许可正在收紧,大量数据难以获取,这对AI模型训练和学术研究造成阻碍。研究显示,数据许可的不对称性与不一致性,以及数据与AI模型训练用途的不匹配问题。此外,AI数据共享空间限制增加,预测未来开放网络数据将逐年减少。因此,需要标准化和优化数据许可协议,以更好地反映网站所有者的意愿,并解决数据创建者和AI科技公司之间的紧张关系。

媒体报道

「AI 数据荒」雪上加霜,MIT 发现网页数据的公开共享正走向衰落IT 之家
“AI数据荒”雪上加霜!MIT:网页数据的公开共享正走向衰落凤凰科技
「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落搜狐科技

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MIT 数据许可 AI模型训练 数据共享
相关文章