非营利组织知识共享组织(Creative Commons)率先发起了一项授权运动,允许创作者在保留版权的情况下分享作品。如今,该组织正为人工智能时代做准备。周三,该组织宣布启动一个名为“知识共享信号”(CC Signals)的新项目,该项目将允许数据集持有者详细说明其内容如何被机器重复使用,例如在训练人工智能模型时。
这个想法旨在在互联网的开放性和人工智能所需的更多数据需求之间建立平衡。
正如知识共享组织在一篇博客文章中所解释的那样,持续进行的数据提取可能会侵蚀互联网的开放性,并可能导致实体封锁其网站或使用付费墙来保护它们,而不是共享对其数据的访问权限。
另一方面,CC 信号项目旨在提供法律和技术解决方案,为控制数据的人和使用数据训练人工智能的人提供一个数据集共享框架。
随着公司努力改变其政策和服务条款以限制对其数据的人工智能训练或解释他们将在多大程度上将用户数据用于与人工智能相关的目的,对这种工具的需求正在增加。
例如,X 最初做出的改变允许第三方在其公开数据上训练模型,但后来又撤销了这一决定。Reddit正在使用其 robots.txt 文件(该文件旨在告知自动网络爬虫是否可以访问其网站)来限制机器人抓取其数据用于训练 AI。Cloudflare正在寻找一种解决方案,既可以向 AI 机器人收取抓取费用,也可以开发一些工具来迷惑它们。开源开发者也构建了一些工具来减慢和浪费不遵守其“禁止抓取”指令的 AI 爬虫的速度。
CC Signals 项目则提出了一种不同的解决方案:一套提供一系列法律可执行性的工具,但所有这些工具都具有道德分量,类似于如今涵盖数十亿在线公开许可创意作品的 CC 许可证。
知识共享组织首席执行官安娜·图马多蒂尔在一份声明中表示:“知识共享信号旨在维护人工智能时代的公共资源。正如知识共享许可帮助构建了开放的网络一样,我们相信,知识共享信号将有助于塑造一个以互惠互利为基础的开放人工智能生态系统。”
该项目目前才刚刚开始成型。早期设计已发布在CC 网站和GitHub 页面上。该组织正在积极寻求公众反馈,计划于 2025 年 11 月发布 Alpha 版本(早期测试版)。此外,它还将举办一系列市民大会,收集反馈意见并解答疑问。