MIT等机构的研究发现,开源数据集如C4、RefineWeb、Dolma等网站的数据许可正在收紧,大量数据难以获取,这对AI模型训练和学术研究造成阻碍。研究显示,数据许可的不对称性与不一致性,以及数据与AI模型训练用途的不匹配问题。此外,AI数据共享空间限制增加,预测未来开放网络数据将逐年减少。因此,需要标准化和优化数据许可协议,以更好地反映网站所有者的意愿,并解决数据创建者和AI科技公司之间的紧张关系。
媒体报道
「AI 数据荒」雪上加霜,MIT 发现网页数据的公开共享正走向衰落 | IT 之家 |
---|---|
“AI数据荒”雪上加霜!MIT:网页数据的公开共享正走向衰落 | 凤凰科技 |
「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落 | 搜狐科技 |