原创 晚点团队 2025-02-27 22:13 北京
“开源不能只看存量,还要看到增量。”
“真正的大模型开源,应该把数据集也开源。”
文丨贺乾明
编辑丨宋玮
过去两个月,DeepSeek 重塑全球大模型格局,也扭转了整个行业对开源的理解。
OpenAI 反思走向闭源是 “站在历史错误的一边”,百度、MiniMax、阶跃星辰等原本闭源的公司转向开源。
“如果在以前,一个拿几亿美金融资的公司说自己要开源,估计投资人会吐血。” 一位科技投资人说。
DeepSeek 还在加大开源力度。这周,DeepSeek 计划开源 5 个训练、推理大模型相关的代码库——而大多数开源模型的公司还停留在开放模型权重层面。
到底该怎么看待 DeepSeek 的开源?它对大模型开源社区意味着什么?为什么不同公司选择不同的开源策略?选择开源对一家商业公司到底意味着什么?
近期,我们访谈了中国开源先驱章文嵩。他 1995 年读硕士期间接触到开源,那时中国刚通互联网不久,不少 DeepSeek 的研究者还没有出生。
1998 年,章文嵩在国防科大读博期间开源了 LVS(Linux 虚拟服务器)软件,这个均衡服务器访问流量、避免宕机的系统,是中国最早在全球科技行业扩散的开源项目,如今是互联网基础设施的组件。
“几乎所有的互联网公司都在用,包括 Google。” 章文嵩说,“大家每天用手机上网,在数据中心那一侧的请求,大部分可能都要经过 LVS 的调度”。
他认同 DeepSeek 的崛起是 “开源对闭源的胜利”,因为开源会降低创新应用成本,建立生态,可能会形成一些 “事实标准”。
他也提出了一个更激进的主张——“真正的大模型开源,应该把训练数据集也开源”。
相对于开源大模型权重、训练框架代码,这是更彻底的开源。非营利机构 AI2 发布大模型系列 OLMo 时,就把开源推进到这个层次,但模型性能有限。
在章文嵩的设想中,这个开源数据集要像维基百科一样,非营利机构牵头,数百万志愿者贡献数据,开源共建预训练的数据集,“这是全人类的知识宝库”,大模型服务可以由营利机构和非营利机构提供。
“OpenAI 并没有把全世界的数据收集全,远远没有。” 他引用了一个研究——将 Llama、 Mistral 和 Qwen 等开源模型串接起来,评测中的表现竟然比 GPT-4o 高出近十个百分点。他说,这证明开源训练数据集的潜力,“闭源模型收集的数据维度有限,这是他们面临的挑战。”
章文嵩不仅是中国开源的先行者,也是推动中国开源从零星个人贡献到互联网公司主导的关键人物。他 2009 年加入阿里,工作近 7 年,曾担任阿里云 CTO、阿里开源委员会主席,从 0 到 1 建立了阿里的开源策略。后来,章文嵩曾在滴滴工作 5 年,担任高级副总裁,同样推动了滴滴的技术开源。
“真正的大模型开源,应该把数据集也开源”
晚点:DeepSeek 的新模型发布时,Meta 的 AI 首席科学家 LeCun 说,这是 “开源对闭源” 的胜利。你认同吗?
章文嵩:当然认同。我一直觉得开源的大模型迟早会超越闭源的大模型。开源让创新的应用成本变得很低,同时,通过开源,可以构建一个生态,可能会形成一些事实标准。
晚点:那现在到了 “胜利” 的时刻吗?
章文嵩:我觉得真正的大模型开源,应该把训练(数据)集也开源。大语言模型的通用知识应该为全人类共享,就像维基百科一样,数百万人贡献数据,开源共建预训练的数据集,为全世界全人类服务,大模型服务可以由营利机构和非营利机构提供。
晚点:接下来会沿着这个方向演进吗?
章文嵩:那我不知道(此处笑了约 5 秒)。
大概半年前(2024 年 6 月),美国做 AI Infra 的公司 Together AI 发了一篇文章,把几个开源模型串接起来,像 Llama,然后法国人开源的 Mistral,国内的 Qwen(阿里通义千问)等去做评测集(评估大模型能力的基准测试),结果好于 GPT-4o 大概将近十个百分点,让人挺惊讶。
这说明这些开源模型训练数据集的并集,比 OpenAI 的 GPT-4o 训练集更丰富。如果不是更丰富,达不到这样的效果。
所以,OpenAI 并没有把全世界的数据已经收集全了,我觉得远远没有。这是闭源的挑战,他们收集的数据、维度都有限。
晚点:你之前在一篇文章中写过,基础软件开源,一个重要的好处是能让软件得到扩展与改进。但大模型的开源似乎提升不了模型本身的能力。
章文嵩:对。目前来看,模型的能力主要还是看数据工程,就是训练集的质量。
所以我觉得应该有一家非营利机构,用开源的方式来组织训练的数据集,大家一起做贡献,就像全人类的知识宝库一样,为全人类共享。
晚点:模型能力主要看训练数据集的话,那采用闭源策略的公司,就可以用开源的数据集叠加自己的数据集,训练更强的模型,那闭源模型会一直胜利?
章文嵩:我们可以在许可证(License)上做文章。
Linux 为什么强大?那是因为选了 GPL 许可证(允许用户自由使用、研究、修改和分享软件,但用了 GPL 软件的作品,必须以 GPL 许可证开源)。
2000 年前后,操作系统有很多选择,开源的还有 BSD(一种类 Unix 开源操作系统),但它的 License 特别宽松。苹果的 iOS、Cisco 的 iOS 都是在 BSD 上面做的,但没怎么回馈开源项目,对 BSD 生态发展很不利。Linux 的 GPL 许可证就要求,你在上面做改进,要回馈回来。
比如我规定这个开源训练集许可证,是类似 GPL 的传染许可证。如果豆包拿去用,对不起,豆包也必须把训练数据集开源出来。
非营利机构也可以说,如果要用我的(数据集),你要声明,要付费,也可以根据访问量付费,方式可以多种多样。
晚点:但数据集都在模型里面,很多作家的作品被模型厂商拿去训练模型,他们也没办法证明模型一定用了。
章文嵩:举证也比较简单,构建这个训练数据集时,可以在里面加 “指纹”,特定提示词抛出来,模型回答十分接近,就可以说用了数据集,就有可能限制他们。
晚点:你觉得 DeepSeek 什么时候有可能把训练数据集开源出来?
章文嵩:我不知道。但我觉得 DeepSeek 现在大概有 140、150 位同学,未来可能会更多,肯定也希望商业化成功,不可能一直靠激情做纯粹的开源。只有在财务上基本自由后,才能追求终极的开源使命。
晚点:Meta、阿里都开源大模型,但最后是 DeepSeek 拿走了胜利的果实。资源更少的后发者获得领先身位,在开源社区中常见吗?
章文嵩:这就是开源生态的魅力。我不需要巨大的资源,也不用从零开始做。开源是共享协作,我可以站在巨人的肩膀上尝试很多方法,有些可能是有效的。我想 DeepSeek 的 R1 里面用的强化学习,也是这样试验出来的。接下来,也会有人做很多其他尝试,也有可能找出更好的方法。
DeepSeek 开源的影响力最大,本质是模型效果好,推理成本又低——这是最关键的点。所以它的生态建设就是自然而然的事情,才会有更多的人用。
晚点:你怎么看待 DeepSeek 开源策略成功的意义?
章文嵩:DeepSeek 可以说是目前为止中国最成功的开源项目。这是一个关键的时间点。尤其是美国高端芯片禁运的情况下,要怎么走出一条路?DeepSeek 的启示很大。
晚点:为什么在全球先开源领先模型的不是 OpenAI,而是 DeepSeek?
章文嵩:OpenAI 已经走上闭源的道路,不可能回头的。他拿了那么多钱,他要实现自己的商业化目标。而且在阿尔特曼的主导下,也不会开源。
晚点:最近阿尔特曼说,“关于开源,他们站在了错误的一边”。你怎么看这个转变?
章文嵩:人们对大模型的关注,都到 DeepSeek 上面去了,而不是 OpenAI 的 ChatGPT。所以他必须要跟进。
但他跟进的力度是很有限的,只想把 o3 的 mini,很小的一个小模型版本开源出来。他只是想挽回一些大家的关注度。
阿尔特曼在社交媒体上讨论开源。
晚点:DeepSeek 没从外部融资,没有商业化的压力,是它开源的前提吗?
章文嵩:他们肯定是有技术追求的,有自己的目标。但商业化有不同的路径,在开源生态上也可以实现商业化,并不是一定要闭源。
晚点:如果它想继续开源,有什么商业化的方式?
章文嵩:过去开源商业化成功的公司有不少。比如 Red Hat,实际上是在 Linux 开源软件包基础上打包一个发行版。如果用户自己安装,是免费的。如果用户想节约时间,自动更新,Red Hat 就可以从服务中收到钱,这部分的订阅费是它最大一块收入。别的还有技术服务费。
Red Hat 是非常成功的公司,也比较伟大,它做过很多的软件,包括很多改进,都一概开源出来,并没有藏着,通过订阅、技术服务,依旧可以赚到钱。
晚点:既然可以赚到钱,为什么开源没有成为中国软件生态的主流?
章文嵩:我觉得跟整个环境有关系。中国真正做软件的公司相对比较少,不像我们的互联网公司规模都很大。很多企业,就是软件的采购者,比较强势,有很多定制化需求,交付成本很高,导致国内没有出非常大规模的软件企业,更不用说开源了。
当然,中国的工程师队伍非常庞大,开源力量也越来越强,应该在全世界排名第二。这一点我们并不弱。
晚点:中国的大模型开源会持续下去并成为主流吗?
章文嵩:我觉得会持续下去。大家已经从 DeepSeek 开源迅速走红认识到开源的威力。
大模型开源要形成主流,需要多方一起来参与开源,形成生态,很多参与方都能赚到钱,开源生态才会越来越强大,就像 Linux 开源生态一样。
阿里经验:公司开源不只是选择题,要有正反馈
晚点:字节不开源,阿里部分开源,DeepSeek 全开源。你觉得影响一个公司开源策略的因素是什么?
章文嵩:可能还是跟商业化相关,看大家的商业化的路径是什么。如果追求用独一无二的 API 调用服务收费,可能就会走向闭源,不会开放。如果有些公司觉得,开源生态更强大了,用的人更多了,我只要在里面取一瓢,就能实现商业化的收入,那就会选择开源。
比如说,DeepSeek 开源让更多的企业做私有化部署,会让 DeepSeek 的影响力越来越强。它自己也可以提供 API 服务,收到一部分钱,因为它是原作者,大家对它的信任度自然就高。如果这个生态足够大,只拿其中一部分,商业化收益就已经够了。
晚点:扎克伯格说过,Meta 选择开源,是因为他们发力晚,没有先发优势。中国大模型行业起步相对比较晚,很多公司一开始都是做开源。对于后发的选手,开源是更好的选择?
章文嵩:我觉得也不能这么讲。Facebook 是美国互联网巨头唯一错过云计算的。一些在 Facebook 的老朋友说,当时扎克伯格犯了错误,他觉得云计算不应该做。这一波 AI 来了,我觉得他们是想通过开源做生态,看能不能在 AI 服务上做一些业务出来。
晚点:我们也看到很多公司摇摆,比如 OpenAI、Mistral、零一,开源后来又转成了闭源。
章文嵩:开源没有形成很好的正反馈,开源的动力就不太足了,这是有可能的。商业化的公司做开源,需要有一些商业化上的正反馈回来。阿里为什么支持开源,一方面是本身比较开放,另一方面是对阿里云的业务帮助很大。
晚点:你在阿里工作近 7 年,从淘宝资深技术总监到阿里云 CTO,也是阿里开源委员会主席。阿里当时为什么想要开源?
章文嵩:开源实际上是副产品。我是 09 年入职,那时候先是淘宝,在淘宝和技术团队一起出去做校园招聘。我们经常问同学们:“你们猜猜看淘宝这样的网站,我们有多少技术人员?”
我们本来想跟同学们互动一下,想让同学们知道我们技术团队也挺庞大,有很多挑战,结果反馈基本上都是 20 个人左右。
实际上那时候淘宝的技术团队已经有一千多人了。所以外部对我们的了解很少,对校园招聘也是一个挑战。
晚点:那时中国的公司开源并不常见,你怎么说服高管的?
章文嵩:等 2010 年的时候,我就游说了吴泳铭,吴妈,说我们做了很多事情,做的东西也不错,也有技术深度,也有技术挑战,可以通过开源让外部更了解我们。吴妈就说很好,那你就开始干。
我们先在我的部门启动开源。我们做的基础软件,有的在生产系统已经用了蛮长时间,也没有什么变更。我跟同学们说,就选淘宝的那个缓存系统 tair 对外开源,跟 Memcached 类似。然后技术同学马上反馈说,给我三个月的时间,我们把代码好好理一理,再开出来。
工程师还是很在意他们的声誉。(软件)放在生产系统上运行,不出 bug,很多时候就可能到此为止了。一旦说把他们的源代码开源出来,然后把他们的大名署上,他们还是会很在意,因为有别人看他们写的代码。
后来我们陆陆续续把基础软件开源出来,得到很多阿里技术人员的响应。
开源对技术人员也有好处。如果你开源了一份代码,在业界被大家使用了,大家是可以看到的,在上面积累的知识是长久有价值的。如果你在一家公司做闭源项目,无论在外面怎么讲,大家都看不到你的工作。
我们就建了一个阿里的开源委员会,也有开源流程,工程师所在的团队主管到部门主管,最后吴妈的减一,他们都要同意,负责知识产权的法务律师也要签字,不是说想开源就开源了。
而且阿里每年搞职级评审,开源做得好是加分项。一个重要指标就是外部贡献者能占多少。如果项目外部贡献者很少,说明生态还没有形成。
晚点:阿里做大模型走开源路线,跟你当时推进的开源文化有多少关系,它是一种延续吗?
章文嵩:我觉得应该有关系,往自己脸上贴金(笑)。两年多前,他们要做魔搭开源社区,向我请教过好几次怎么做开源,我也给他们出了一些主意,比如要把 credit 分给大家,我觉得这是凝聚开源社区最关键的。当然他们也做的非常好,不定期还有线下的聚会。
晚点:我们看到一种观点:开源会削弱竞争力,对手可以拿着开源的产品迭代,可能会做得更强。
章文嵩:这是不可避免的。2015 年还有人收集了(京东网站的软件)报错信息,挑战我,说京东用了阿里开源的 11 款软件,让京东的技术进步大大加速。
晚点:你当时怎么回答的?
章文嵩:针对这个问题,我没有具体跟他们回答,他们罗列的肯定是事实。但要看到阿里用开源凝聚很多人才,推动了云计算业务发展。
我跟吴妈说过,淘宝的数据是日积月累的,谁都拿不走。淘宝的软件,找到合适的人才,赋予足够长的时间,别人也做得出来。即便别人拿走淘宝的软件,做了另一个淘宝,上面空空如也,试问大家会在哪个平台上做交易?
但我们需要用更加开放的方式,让别人了解我们的技术深度,包括我们未来的技术挑战。因为有挑战才能吸引更多的人才加入。
晚点:目前接入 DeepSeek 卖 API 服务的主要是大型的云计算平台,因为它的模型 6000 多亿参数,太大了。这对 DeepSeek 建生态有负面影响吗?
章文嵩:一些开源生态为什么会越来越强大?就是开源生态的建设者,或者链主,有足够大的胸怀,允许其他的玩家可以赚到钱。如果你不允许其他玩家赚到钱,那谁愿意跟你玩,对吧?
晚点:未来行业发展会是什么样的?会形成两个巨头?一个开源的巨头,还有一个闭源的巨头。
章文嵩:会是多样的。肯定会有巨头,也有中等规模的玩家,开源的也会存在。假设训练数据集也开源了,开源的那个巨头可能就是非营利的,就像维基百科一样。
30 年开源人生,成就感比赚钱更重要
晚点:1998 年,你还在读博,就开发了知名的开源项目 LVS (Linux Virtual Server,虚拟的服务器集群系统,用于实现负载平衡),是中国最早的开源项目之一。你怎么接触到开源的?
章文嵩:我接触开源的这些理念是 1995 年。我觉得很多软件,我可以拿到源代码,就很好玩,挺有意思的。
我还去游说了长沙的一家公司,进口了一大批开源软件的光盘售卖。那时候国内刚接互联网,远程下载一个 Linux 发行版,下载自由软件,速度很慢。
晚点:你当时只是一个硕士生,怎么游说他们的?
章文嵩:我是他们公司里面最厉害的工程师,类似首席架构师,整体的架构需要我搭,我帮他们赚了不少钱。不过游说他们做开源的事情,就买一批光盘,我们加一点价,也不亏钱,最后大部分光盘都卖掉了。
晚点:后来你怎么会想到开发、开源 LVS 项目?
章文嵩:就是做着好玩,而且运气好,抓住一个点,那时候 Linux 内核里面没有类似的服务,我做了一个版本,很快就得到了应用。那是我自己做的课题,不是学校的或者国家的科研课题,开源就没关系。
晚点:互联网迭代很快,很多项目都消失了。这个项目你后来做了多久?还在持续维护吗?
章文嵩:我持续在做这个维护,不过大部分都比较成熟了,要加一些新的协议进来,工作量并不大。
当然,这份代码也比较简单,做得比较极致,就一万多行。没有人能写出比这个更高效的代码(笑)。
它一直活着,98 年到现在就是 26 年多了,还在广泛使用。你们每天用手机上网,在数据中心那一侧的请求,可能大部分流量都经过我的软件调度,国内几乎所有的互联网公司都在用。Google 也在用。
我自己也写过其他的一些代码,有些代码已经消亡了,那些代码能活那么久,我作为作者感觉还是不错的。
有时候我跟丈母娘说起来,你每天用手机上网,实际上背后都有我软件的贡献。然后丈母娘答,你做了很多东西,但你什么都没得到,都是免费给大家用。(笑)
晚点:LVS 这么成功,你有赚到钱吗?
章文嵩:赚钱肯定是间接的。比如说,我通过 LVS 获得一定名气后,我去参加很多开源的会议,Red Hat 愿意支付我旅行的费用。因为他把我的软件也打到 Red Hat 发行版里面去了。我还指导他们上面的管理工具应该怎么做。
他们会给我订好机票、酒店。到当地的时候,他们会给我一张信用卡,随便刷,不用走报销,他们也知道我不会乱花钱。而且我做了 LVS 项目,大家都知道我,我觉得这也是回报的一部分。
晚点:你毕业后参与过很多创业项目,比如视频社交网站比酷网、语音通讯软件 TelTel、流媒体视频网站 9x9 TV 等等,好像都没有特别成功。你觉得你们那一代人擅长什么?局限性又是什么?
章文嵩:我觉得,我们很多想法比较超前。我们试了一下,发现跟想象的效果不一样,马上又换方向,不停在那试。打个比方说,我们做产品就像挖油井一样,不冒油再换个地方再打一口井看一看。
我觉得还是当时的认知不够。比如我们 2003 年做了比酷网,那时候设计的想法,就是让大家可以来这个网站上比比酷,用户可以制作音乐,制作动画,比 YouTube 早了一年半。
我们推出之后,网站的流量很高,高到我们付不起费,就没坚持下来。当时并没有看到巨大的流量有广告价值,就没有想到这一步。
那个时候,国内主要还是在做短信的增值业务,运营商开了一个口,可以从用户话费月套餐里面扣钱,好多互联网公司都干过这个事情。
晚点:后来你有过两段大公司的经历。什么让你从一个创业者变成愿意在大公司工作的人?
章文嵩:那段创业的时间是六年半,换了六七个项目,基本上每年换一次。当时我在家里就琢磨着,这次创业干脆我自己牵头,我自己来决定,选一个小的点,可以坚持很久。
我老婆看到我整天坐在家里,有一些担心,最后就直接下 “逐客令” 了,说你别整天在家坐着,要么出去继续创业,要不去找份工作。后来我就说,其实阿里找我找了两年了。
晚点:你现在又是一家公司的联合创始人了。
章文嵩:对。我们想做一个高性能的(大模型)推理引擎。我自己觉得智能化浪潮是一个大机会,能持续 100 年,我不想只当个看客。
AGI 可能是通用知识层面,但还有很多专用知识,比如个人的隐私数据,习惯、喜好等,不会把数据给别人;企业也有很多私有化数据,是它的命根子,也会选择在通用的模型上做应用。
每家企业、每个人都有智能化的机会,做一个推理引擎很关键。目前大家开源的模型都用 vLLM(加州伯克利大学研究者开源的大模型推理框架)。我们想能不能做一个比 vLLM 更快的。我们这个团队,包括我自己,做基础软件相对比较擅长,所以想着在智能化浪潮下,还能为社会做点什么。
晚点:会开源吗?
章文嵩:CUDA 之上的,我们会开源,跟 vLLM 一样,当然我们会有不同的架构,不同的技术选择。
CUDA 之下的,我们对 NVIDIA 的指令集做了很多逆向工程,用强化学习优化它的算子,大概有 40% 多的性能提升。
因为 NVIDIA 不开放 GPU 指令集,如果把它的指令集开放出来,就违反它的协议。
晚点:这次创业你想干多少年?
章文嵩:多少年那不知道。但我觉得是大趋势,需求在那里。关键是能不能把核心技术做得更好,做得更好肯定就有价值。
晚点:你觉得开源的本质是什么?
章文嵩:我认同梁文峰说的 “开源是一种文化”,但需要年轻人觉得这东西是文化,他才会觉得有价值,从而持续投入来做。
对我来说,这种价值偏向于成就感。我自己开源 LVS,别人用,这种感觉挺好的,不付钱我都觉得很高兴。
晚点:现在你也经常接触新一代技术人才,你觉得他们跟你们有什么不一样吗?
章文嵩:他们的条件太好了。年轻人可以追求自己的梦想,追求自己觉得有价值的事情。他们更厉害,我觉得对开源生态的贡献会更大。
今天我们推送了两篇开源对话。在另一篇对谈中,我们邀请了 00 后研究者王子涵,分享他眼中的 DeepSeek 开源和更广泛的大模型开源。
王子涵曾在 DeepSeek 实习,目前在美国西北大学 MLL Lab 攻读博士学位。
· FIN ·