「AI 数据荒」雪上加霜，MIT 发现网页数据的公开共享正走向衰落

ReadHub 2024年08月13日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

MIT等机构研究发现开源数据集许可收紧，数据难以获取，对AI模型训练和学术研究造成阻碍，且AI数据共享空间限制增加，开放网络数据将逐年减少，需优化数据许可协议。

🎯MIT等机构指出开源数据集如C4、RefineWeb、Dolma等网站的数据许可收紧，大量数据无法轻易获取，严重影响了AI模型训练及学术研究的进程。

📋研究表明数据许可存在不对称性与不一致性，且与AI模型训练用途不匹配，这进一步加剧了问题的复杂性。

🚧AI数据共享空间限制增多，导致预测未来开放网络数据会逐年减少，形势愈发严峻。

MIT等机构的研究发现，开源数据集如C4、RefineWeb、Dolma等网站的数据许可正在收紧，大量数据难以获取，这对AI模型训练和学术研究造成阻碍。研究显示，数据许可的不对称性与不一致性，以及数据与AI模型训练用途的不匹配问题。此外，AI数据共享空间限制增加，预测未来开放网络数据将逐年减少。因此，需要标准化和优化数据许可协议，以更好地反映网站所有者的意愿，并解决数据创建者和AI科技公司之间的紧张关系。

媒体报道

「AI 数据荒」雪上加霜，MIT 发现网页数据的公开共享正走向衰落	IT 之家
“AI数据荒”雪上加霜！MIT：网页数据的公开共享正走向衰落	凤凰科技
「AI数据荒」雪上加霜！MIT：网页数据的公开共享正走向衰落	搜狐科技

媒体报道

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签