开源人工智能：数字主权的基石

随着人工智能正在重塑从教育到国防的方方面面，数字主权已不再是一个长期的愿景，而是一个迫在眉睫的现实需求。

为了确保各国能够对影响其社会的人工智能系统进行治理、审核和建设，开源人工智能正成为实现自主可控、激发本土创新、重建公众信任的关键支柱。

什么是数字主权？

数字主权是指一个国家或地区具备能力，依据自身的法律、价值观和战略利益，独立地治理、控制和保护其数字基础设施、数据与技术体系。

这包括对数字资产进行管理和维护的权力与技术能力，涵盖数据的存储与处理、技术基础设施，以及在该国境内使用的各类数字服务。

人工智能中的数字主权引发了具体的问题；人工智能尤其依赖于全新的基础设施规模与数据体系，并被视为一项变革性技术，预计将直接影响工作、安全、经济、选举流程等方面。
如果一项技术在对社会生活中的这些领域都产生了强烈影响，那意味着社会也需要具备塑造其发展路径和应用方式的能力。

数字主权的关键维度

数据主权：确保在一国领土内生成的数据受该国法律和治理结构的约束。例如，欧盟的《通用数据保护条例》（GDPR）对欧盟公民的数据施加严格的保护标准，无论这些数据在何处被处理。

技术主权：在关键技术领域追求自给自足，减少对技术提供商的依赖。这包括在云计算、5G 网络和人工智能等领域发展本国能力。

基础设施主权：对支持数字服务的物理和虚拟基础设施的控制，例如数据中心、通信网络和云服务。像欧洲的 AI 工厂提案这样的项目旨在建立一个联合的数据基础设施，以增强基础设施主权。

监管主权：在一国司法管辖范围内制定并执行数字活动相关法律的权力。这包括有关数据隐私、网络安全和数字竞争的法规，而这些法规的实施能力依赖于前三个数字主权维度。

开源如何支持主权

开源人工智能模型具备可检查性与可解释性，使政策制定者、监管机构和公众能够深入理解其架构设计、决策逻辑以及潜在局限性。这种可见性是实现人工智能普惠治理的前提条件。通过开源机制，监管部门与研究机构可以系统性地评估 AI 系统的运行机制，并判断其技术属性是否符合公平性、安全性与合规性的政策要求。

随着人工智能在社会各领域的广泛部署，对可信、可问责的技术体系的需求愈发迫切。开源不仅提供了透明度，也为建立可监管、可审核、可验证的 AI 治理体系奠定了技术基础，是实现公共利益导向技术治理的重要路径。

对于专有人工智能模型，各国普遍面临显著的战略性风险：既无法审查其训练数据来源，无法修复偏差，也无法确保访问的持续性、访问的可用性或成本的稳定性，由此加剧了对外部技术供应方的依赖。这种依赖关系，难以为国家的政策制定、关键基础设施安全或创新能力建设提供稳固支撑。相比之下，开源（以及在一定程度上开源权重）模型为破解这一结构性困境提供了现实路径。例如，德国在其数字战略中明确提到了开源，将其作为减少对境外技术依赖、推动本国人工智能生态系统建设与自主能力提升的关键举措。

像 OLMO2（一个相对较小的模型，其训练方法和数据完全透明，性能与 OpenAI 的 o1-mini 相当）或 OlympicCoder（一个更小的模型，在复杂编码任务上性能超过最新的 Claude 模型）这样的开源项目，充分体现了协同创新在构建先进人工智能模型中的潜力。这些模型的设计架构、训练流程及数据来源均实现了高度透明，为技术评估、治理合规和可信使用提供了可行路径。

开源人工智能模型具备本地托管、灵活修改和自主治理的能力，这使国家或地区能够基于本土数据训练或微调模型，在自主可控的基础设施上完成部署，并从语言、伦理价值到法律制度等方面制定符合本地文化价值观与制度框架的政策。

开源如何支持每一个数字主权维度

每一个数字主权的维度都能直接受益于开源。

当政府或公益组织能够在本地数据集上，根据国家法律框架对模型进行微调或再训练，且数据无需离开司法管辖区时，数据主权便得以维护。共享这些数据集使得在符合法规的数据基础上开发技术成为可能，例如 Common Pile v0.1，这是一个由许可和开放域文本组成的数据集。

技术主权则通过学术研究者和（本地）社区构建和维护AI核心能力而得以提升，从模型架构到训练流程，而非单纯依赖外部封闭的专有API。有助于推动国家级乃至区域级人工智能人才体系与技术基础的独立发展。

基础设施主权则得益于可在本地硬件上部署的开源模型，包括端侧设备或国家级数据中心，从而最大程度减少对外国控制的云基础设施的依赖。像 SmolVLM 这样的轻量模型展示了高性能人工智能系统可在资源有限的硬件环境下运行，为政府部门、公共机构及中小企业提供了在本地构建AI应用的可行路径，同时保留对模型运行和数据控制的主导权。

最后，监管主权依赖于模型内部机制的可解释性和透明度。在开源框架下，监管机构能够对AI系统的决策过程、偏差风险与法律合规性进行有效审查，从而将法律规范具体落实到系统设计与实际运行层面，真正实现“可评估、可审计、可治理”的人工智能治理体系。

综上所述，开源AI不仅是一种技术资源，更是实现主权的战略推动力。

像 Hugging Face 的 Transformers 库、Meta 的 LLaMA 模型和 Mistral 的模型等开源工具，已经赋能全球成千上万的开发者，使其能够根据本地需求进行实验、部署和调整强大的 AI 模型。例如 Sarvam-M，这是一个面向印度语言的多语种模型。

开源人工智能显著降低了技术进入门槛。它使研究人员、中小企业乃至公共机构不仅能够使用前沿模型，更能够基于开源工具链进行本地化改进与自主研发。这种“由下而上”的技术创新模式，激活了多层次创新生态，拓宽了本地人才参与全球技术演进的通道。

相较于封闭模型将技术能力集中于少数跨国科技公司手中，开源人工智能为国家和地区提供了打造自身人工智能技术能力的战略机遇。这种能力的积累，不仅有助于形成符合本地价值观与监管要求的人工智能系统，更是面向未来的关键竞争力，在人工智能深度塑造经济、治理与社会结构的时代背景下，具有不可替代的长期战略意义。

人工智能将塑造未来的规则、经济和价值观。开源确保这项力量是分布式的、透明的、可适应的，而不是集中在少数人手中。

对于任何致力于数字主权的政府或地区而言，投资开源人工智能并不是一种妥协，而是通向信任、独立和共同进步的康庄大道。

英文原文: huggingface.co/blog/frimel…
译者: Adeena

什么是数字主权？

数字主权的关键维度

开源如何支持主权

开源如何支持每一个数字主权维度

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签