36kr 2024年12月03日
打开“黑盒”,自研模型,聊聊AI创业与创作——五源小酒馆Vol.22 x 彩云科技袁行远
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

彩云科技创始人袁行远分享公司在AI领域的探索,包括推出多款产品及在模型研究上的努力,面临诸多困难仍坚定前行,探讨AI故事创作等内容。

彩云科技拥有彩云天气、彩云小译和彩云小梦等产品,用户量突破千万层级。

公司在AI上不断探索,从天气预报到机器翻译,再到小说创作,推出自然语言编程方法并申请专利。

研究模型可解释性,开发更好的模型,虽面临诸多困难,但在模型规模达到百亿级参数时取得成果。

彩云致力于提高产品智能度,解决用户留存率低的问题,专注故事创作,希望打造优质内容平台。

这一期五源小酒馆,我们请到了彩云科技的创始人、CEO袁行远。彩云科技拥有彩云天气,彩云小译和彩云小梦三个产品,都是用户量突破千万层级的AI原生应用。

两年前,行远在五源小酒馆分享了他创业的故事,这两年,彩云在利用人工智能让生活更美好上也做了很多的努力,我们也看到了小梦的很多新的变化,行远也分享了彩云在AI上的一些探索,希望对你有所启发:)

【本期嘉宾】

袁行远 彩云科技创始人、CEO

【以下为内容节选】

袁行远: 大家好,我是袁行远,早在这一波AI浪潮之前,我们就在做AI相关的产品。之前计算机视觉非常厉害,所以我找了一个切入点,用计算机视觉去识别天气云图和雷达图,这样可以做到分钟级公里级的高精度预报,也最早推出了国内第一个高精度的天气预报软件。

2017年的时候,我们敏锐地意识到主战场已经从计算机视觉转移到了文本理解。文本是一种高度压缩的数据,随着计算能力的提升,能够解码的数据越来越复杂,计算机学界开始做NLP相关的工作,所以我们也迁移到了这上面,做了彩云小译这样拥有百万月活的机器翻译的产品。

做了翻译之后,我们发现大家有很多翻译的需求来自于阅读小说,我就想既然大家需求量这么大,我们是不是可以研究一下小说的自动化创作。在2021年我们推出了彩云小梦,同时也推出了一套自然语言编程方法,申请了相关的专利。那个时候我们已经意识到,NLP的技术可以用来做各种各样的事情,这也是后来的Chat GPT的思路。

上一次在五源小酒馆聊的时候,我们刚发小梦2.0版本,那是一个语音对话的场景,我们做了一些角色扮演类的内容(“一以贯之的努力,不得携带的人生”|五源小酒馆 x 彩云科技袁行远)。后期出了Chat GPT这样的产品,我们也在思考,在大家都在做AI的时代,怎样还能做出自己的特色。我们提出了两个方向。一个方向是在基础模型上做结构研究,做出比Transformer性能更高的模型。后来我们在这个方向上做出了DCFormer,是Transformer性能的两倍。我们也因此在今年受邀在维也纳的一场国际学术会议上发表演讲,是仅有的两家中国企业之一。

另一个方向是,我们最近推出了一款新的模型,它主要是通过深度思维,以及Agent工作流的方式以最大化利用大模型的效能,让它能够做更加厉害的事情。Open AI将这项技术用在了数学和编程上,这方面比较容易迭代;而我们用在了小说创作上,想要用这套方法让故事创作变得更好。

五源小酒馆: 你在之前也提到过,这波浪潮之后,业界分为三条路,普通青年选择堆砌算力和数据,文艺青年选择搭建Agent工作流,检索增强、提示词工程等,这两条路都是把Transformer当作黑盒,不用了解具体原理。还有一条二B青年之路,就是打开黑盒,研究Transformer这个积木块内部结构。最终你们选择了第三条路,当时是有哪些考虑?有哪些压力和难点?

袁行远: 那个时候公司的压力非常大。原来这个领域只有少数几家公司在做,我们曾经一度做到了一周内100万的下载,每天3000万次的对白以及B站上几亿的播放量,当时用户的二创热情非常强,会有很大的成就感。但是后来所有人都在做,就好像我们本来是在一个羊肠小道上探索,后来发现千军万马冲过来,还把你远远甩在后面。

那个时候也想过好多,到底要不要跟大家一起去卷同样的赛道,最后可能还是内心有点骄傲吧,觉得和大家一起去卷数据也发挥不了自己的优势,我们毕竟还是做算法起家的公司,如果把核心算法的内容给丢掉了,只去做一些产品的优化,或者追求数据量,这些都不是我们擅长的事情,我认为我们对智能度本身的追求和对这个问题根本难度的深刻理解是关键。像多模态这样的技术相对容易实现,但提高智能度则更为困难,关键在于如何提升单位算力所能提供的智能。此外,智能的提升之后,如何将智能在不同阶段进行有效叠加也是一个核心问题,只有实现了这一点,即输入相同的电能却能得到更多的智能,你才可能在市场上取得真正的成功。

在故事创作这一领域,你会发现,仅仅依靠拼产品其实是很难走下去的,最终还是要比拼智能度,而许多产品的智能度实际上并不能令人满意,所以用户留存率特别低,这意味着大家都是来尝鲜的。即便是有一亿人来尝鲜,如果留存率仅为0.1%,最终只剩下十万人。然后在第二年再进行一次过滤,可能就没有用户了。也就是说,尽管你做了很多宣传,但在拥有一亿用户的时候,那只是一个泡沫。现在越来越多的人看到这件事情,所以我觉得还是得练内功,这也是对之前追求奇技淫巧的一个反思。

五源小酒馆: 从你们决定开始all in做模型的研究和开发,到真的取得比较关键性的成果,大概用了多久?中间有过比较难或者比较瓶颈的时候吗?

袁行远: 很早我们就开始从事自然语言处理的研究,可以追溯到2016年。但那时对话这条路径不太可行,我们之前也尝试做过搜索问答,但最后的产出的产品还是翻译。在2017年,我们开发出了“彩云小译”,那个时候还没有transformer模型,所以我们一直都是自研模型。

后来在2017年左右,Transformer模型出现,下半年“Attention is all you need”发表,我们原本的期望是每隔一年左右可能就会有一个新的模型出现,我们跟随这个趋势就可以了,但从2017年到2023年,还没有比Transformer更出色的模型出现。谷歌曾经发表文章声称其他模型相比之下都是噪声,只有Transformer的性能最好。尽管有些所谓的有效改进,但提升幅度也只有百分之二三十,这已经算是非常好的表现了。你会发现这似乎变成了一个类似于百米赛跑的世界纪录,无法突破十秒大关。此前纪录一直在被刷新,但2017年之后似乎就停滞不前了。2019年,两年过去了,纪录仍未被打破,我们开始怀疑这个模型是否真的非常出色。于是,我们启动了一项叫做模型可解释性的研究工作,探索模型的内部原理,以及它为何能够运行。

大家现在可能会看到一些文章介绍Transformer的工作原理,而当你深入研究每个问题时,比如它是如何复制和学习模式的,每一层的每个连接、每次推理过程是如何进行的,你就会发现有一些简单的问题实际上是无法解释的。所以从2019年到2022年,我们一直在进行模型可解释性研究,并开发彩云小梦的大模型。随着研究的深入,我们发现可能在某些地方可以改进它。

到了2023年,Transformer模型已经出现,我们面临的抉择是,是跟风做一版,还是把大模型的内核拆开,继续研究并做出一个更好的模型。当时我们选择了拆解黑盒,本质上是因为内心的骄傲。但在实际操作中,我们发现虽然彩云小梦获得了成功,但这个模型很小,可能是几亿或十几亿参数的规模,而在更大的几十亿或百亿参数规模上,这种方法可能不可行,scale后会发现速度变慢了。速度变慢的原因是,因为你使用的是一个非标准的模型,很多工程硬件加速不是为你定制的。而Transformer是一个已经使用很久的模型,因此它可以得到大量硬件加速支持。那么我们是否也要自己做硬件加速呢?这个时候你会意识到这不仅仅是一个科研问题,而是一个纯粹的工程问题。如果不解决这个工程问题,就意味着无法证明你的性能比别人好,因此我们还是得做。在做的过程中你会质疑,是不是我们的想法虽好,但是在真实场景下不可行?还有一些现实问题,比如怎样租到足够的服务器解决高算力的问题等等。

但最困难的还是在于你的心态会像坐过山车一样,你会怀疑整条路线的正确性。你看到其他人做了那么多模型,而你自己啥也没做,相当于你本来是班上的一个优等生,突然变成了倒数第一名。你说别慌,我现在搞一个别的东西,我觉得它有效果,但你也无法证明自己真的有效果,即使到今天也是这样。不过最后我们发现当我们的模型规模达到百亿级参数时,效果比十亿级参数时还要好,而且随着参数规模的增大,我们的性能提升度更高。你就意识到这个东西确实是可以成功的,也因此拿到了ICML的报告机会,学术界给了很高的评分,也获得了一些真正的认可。

但是,即使你获得了这些认可,你在这个赛道上仍然是一个不知名的公司,因为大家想要的不是你在模型结构上做得好就足够,而是希望你能够发布一个实际可用的产品,让大家使用并真正觉得这个东西很好。至于训练效率和智能度这类模型结构的问题,别人是不会管的。我们的目标不是为了制作这个世界上最好的可用大模型,而是要创造出最好的模型结构,所以我们的产品与主流产品不同。这时你仍然会感受到一种孤独,但没关系,只能说还是要靠信念,继续前进。过程中有高光时刻,也有困难时刻,这就是我们的历程。

五源小酒馆: 你们选择了一条更难的路,在这个过程中,有听到过反对声音吗?

袁行远: 太多了。团队内部有人质疑,我们为什么要开发大型模型,直接使用别人的不就好了?Meta出了LlaMA 3.1、3.2,已经开发了5000多亿参数的模型,我们为什么还要花那么多钱,这真的有意义吗?甚至有人说我们干脆就放弃研发,转而成为一家AI产品公司,直接用他人的算法。还有许多其他不理解的声音,比如为什么不推出一个GPT-3.5的替代品?你们投入了这么多时间,却还没有做出类似的东西,是不是能力不足?这些质疑始终存在。

五源小酒馆: 但你当时并没有因为这些质疑改变过自己的想法,在彩云的三款产品本身也积累了很多用户,给大家创造出了真正的价值,但你还是致力于非常底层的研究,对这条路非常坚定。

袁行远: 我认为你要清楚自己是什么样的人,并放大自己的优势,让劣势变得不那么重要。比如我的优势在于算法和创新,我们整个公司都擅长这个,这是我们的优势。比如我们的产品智能度很高,产品和商业模式比较简单,这样的话我只需要把技术做好,放到应用商店,按月收费,这样就简化了我不擅长的营销和商业模式,同时把我的科研能力发挥到最大。

我们专注于在一条路上全力以赴,做到比别人更智能,最终就能放大自己的能力,同时在这个过程中,你也获得了人生的体验。你能做自己喜欢的事情,同时社会也给了认可,这是一个很幸福的状态,在这种情况下就没有必要去管其他人怎么想,最终你也能获得最大的成功。当然现在还没有,但我深信不疑——如果我们能在某个领域内提供质量最好的产品,我们就能获得这个领域内的用户,然后不断滚雪球,这是一个好的策略。

五源小酒馆:能够投入很多的时间精力去做自己真正热爱并且相信的事情,是很幸福的,但是我们相信这个事情也会很难。对于彩云来说,现阶段你觉得比较大的现实的困难是什么?

袁行远: 现实的困难非常多,比如说在激烈的竞争环境下,你辛苦培养的人才可能被其他公司挖走,比如融资,比如芯片问题也像达摩克利斯之剑悬在头顶,如果哪天无法使用算力公司可能就歇菜了。另外还有收入问题,比如现在公司管理的人越来越多,我们的效率到底提高了多少,不一定说得清楚。还有比如在疫情期间大家都不出门,就不再使用彩云天气,导致公司收入腰斩,当时也有很大的压力。

五源小酒馆: Steven(石允丰)有没有和行远交流过这些问题?

石允丰: 做公司肯定都是非常有挑战的,尤其是过去这几年彩云又处在正面战场上。但我觉得行远的survival能力很强,就像行远说的,他有长板和短板,很多时候他能用他的创新和算法方面的长板去掩盖短板方面的挑战。对于彩云来说,如果能用长板去创造出一个新品类,具有别人不具备的某些能力,单靠这个能力就能走上正向的商业循环,这可能是一个比较理想的路径。

行远每次做产品在刚上线的时候都能非常的火爆,无论是天气还是小译还是小梦。小译是典型的工具产品,以商业逻辑上来说好像没有什么比明显的壁垒,但在小译上线的时候,一个月内就能获得100万用户,以及小梦今天能找到故事创作相对独特的方向也是非常不错的。

袁行远: 如果说产品发展是从1到100分的过程,但是在59到60的时候,有一个节点——在59的时候,用户的感知是0,到60的时候,用户的感知突然变成了60,他会突然觉得有很大提升,也就会非常热烈地自发传播。彩云小译当年为什么能有100万的用户,它是第一个中英双语神经网络同传软件,原来的翻译质量可能是20、30,而它是60,但是从给别人的感觉来说,其他产品是0,而小译唰一下就到60了,就打开了这个开关。

其实小译和小梦都还是犯了一些错,它在“开关”上扮演的角色是很让人惊艳的,但是留存没有那么好,也就是说虽然需求是存在的,但它不是能够一直用的产品。当前整个行业普遍面临的问题就是留存率不高,我们应该从中吸取教训。解决问题的方法是深入了解用户,甚至成为用户,询问他们为何不再继续使用产品,了解在哪个环节出现问题。有时候我们会发现这个问题恰好是我们能够解决的问题,比如智能度,这正好是我们的强项,所以我对此充满信心。

石允丰: 行远刚才提到了一个非常关键的问题,也是现在AI行业普遍存在的问题。AI解锁了许多新的能力,吸引了大量的人涌入。新增用户不是问题,真正的挑战在于如何让用户留下来,长期稳定地使用产品。然而,今天绝大多数AI产品的闭环无法由一个人完成,可能是运营人员、产品经理在与用户交流过程中能意识到问题的存在,但不知道有某个算法可以解决这个问题。而大多数算法专家可能并没有意识到用户的问题。在我看来,这是彩云最大的优势,就是有行远这样的同事,他们可以直接去询问用户,找出问题的根源,并在算法层面找到解决方案。

我觉得目前的好处也在于有很多人涌入行业,提供解决方案,最聪明的大脑终于再一次聚集到了AI上,希望有更多的行远能出来。

五源小酒馆: 对于用户来说,用AI进行故事创作,这是一个普适的需求吗?还是说更多是一小部分特定群体,比如现在的写手的需求?

袁行远: 我认为未来这将成为一种普适需求。就像过去你只能看那么几本书,现在你可以看网文,选择更多了,但这些选择仍然不够个性化。每个人都有能触动自己心灵的故事,可能与他们的生活经历密切相关。从Character AI和Replica这些产品中我们可以看到,人们对于拥有一个自己的创作世界的需求非常强烈,他们希望在这个世界里与他人互动。比如《原神》已经存在,但为什么人们还想在Character AI中,在小梦里和《原神》的角色聊天?因为他们希望拥有一个属于自己的、独一无二的角色以及与之互动的独特体验。就类似于小时候父母给我们讲睡前故事,这些都是专门讲给你一个人听的。当你长大了以后,你难道不想要这样的体验吗?不是的,是因为父母没有时间或者没有创造力,就让你失去了这种体验的机会。但是现在AI相当于一个新的引擎,能帮你把这种体验给重新塑造出来。

五源小酒馆: 你也提到彩云的目标是要创造出类似于《三体》一样比肩人类顶尖的作品,而不是创造出更多一些不入流的内容。目前你觉得离这个目标大概还有多远,或者你觉得现在已经实现了多少了?要实现的话,需要突破的难点还在哪里?

袁行远: 首先,我们将创作分为两个阶段,灵感和后续。在灵感阶段,我认为我们还有很长的路要走。灵感是通过大量的搜索和筛选,以发现有价值的信息的过程。而在后续阶段,故事创作可以分为两大流派:建筑师流派和花匠流派。建筑师流派的创作者在构思故事时,就像设计房子一样,从第一块砖开始就已经规划好了最终的蓝图。《三体》就是建筑师流派的典型代表,刘慈欣在开篇就已经构思好了整个故事的走向,包括最终的黑暗森林理论。

而花匠流派的创作者则更像是在种植花园,他们塑造人物,让人物自然发展,就像种植花朵一样,创作者并不完全预知花园最终的模样。这两个概念是乔治马丁提出的,他是《权力的游戏》的作者,他说他在写《权力的游戏》的时候就更加倾向于花匠的这个做法,也就是把非常复杂的人物都放在那里,然后让他们自然的生长,最终形成一个复杂的小说。

实际上,AI在花匠式的写作方法上表现得非常出色,它能够模拟每个人物在各种状态下的行为,甚至在这方面超越了人类。比如,如果一开始有100多个人物,这些人物之间存在复杂的关系,并且这些关系会随着故事的发展而变化。你可以将自己置身其中,扮演某个角色,观察这个角色所经历的事件,这是一种非常有趣的体验。

我相信通过这种花匠式的创作方法,AI完全有可能达到甚至超越人类大师的水平。毕竟,AI的计算能力可以轻松处理1000个并行人物的复杂关系。目前它的缺陷在于智能度还不够,而且成本过高,我相信在未来半年左右的时间里,我能够解决所有这些问题,并完整地呈现出一个花匠式的作品。

五源小酒馆: 尽管许多人都能创作科幻作品,但《三体》依然具有其独特性,这是否与作家本身的某些特质有关,无论是所谓的天赋,还是他独特的风格,这些都让他创作出了这样的作品。那么,AI能否取代人类的这一特质?

袁行远: 我觉得最稀缺的东西是他要想到最开始的灵感。我要有三颗星星,然后这三颗星星的这个世界,它里面会发生什么样的事情?这是最重要的。

小说创作可以分为两个部分:灵感和技巧。技巧关乎人物塑造和故事线的把握,包括高潮和转折,这些都是大多数作者能够达到的,并不是那么的神秘。刘慈欣曾经以高分考入华北电力大学,后来被分配到发电站工作。在那里,他大部分时间都在监控数据,确保电站运行正常。由于大多数时候电站没有问题,他就在夜晚的空闲时间开始写作,一开始他尝试用计算机创作诗歌,但最终发现计算机创作的成果不尽人意,于是决定自己动手。他从短篇小说开始,逐步发展到中篇《流浪地球》、长篇《球状闪电》,最终创作出《三体》。他也经历了一个学习和成长的过程,他不断地与社会互动,提出各种想法,《三体》中许多想法都是他在早期作品中使用过的,可以说是他创作的集大成之作。所以,如果说它是机器无法实现的,或是人类文明的圣杯,可能有些言过其实。

我认为AI也可以经历类似的过程,从短篇开始,逐步过渡到中篇和长篇,这是一个成长的过程。而且中国科幻界并非只有刘慈欣一人,还有赵海虹、王晋康、郝景芳等作家,有杂志社、作家访谈、交流会这些组织和活动,他们共同推动着科幻文学的发展,AI文学的发展也可能遵循这样的不断前进的过程。

五源小酒馆: 彩云接下来有什么计划或目标?

袁行远: 首先我觉得先专注于花匠式的写作,努力让AI不仅仅是一个尝鲜的产品,而是能够持续运行的工具,这是目前业界面临的一个挑战,我们也正在寻找解决方案。故事创作是普遍需求,而这个需求还没有得到充分满足,我们现在正尝试用我们擅长的方法来满足这一需求。在未来一两年内,我希望我们的产品能够吸引至少100万用户,能够成为一个社区产品,一个充满活力的内容平台,用户可以分享自己的作品,体验AI创作,并且平台和作者可以共同分享收益,形成一个良好的社群生态。

未来如果我们在故事创作方面做得好,我们可以继续探索建筑师式的写作方法和灵感的创造。就算我们一生只专注于这一件事,那也很好,因为这是一个不断创造新世界的过程。所以,我们暂时不需要去考虑光速飞船或时光机这些概念,而是应该先专注于把工作做好。而且,一旦故事创作得到完善,时光机也就变得不再必要,因为你可以在自己创作的世界中穿梭,回到任何一个你想去的时代。

五源小酒馆: 你对故事创作的热情最早是从什么时候开始?

袁行远: 我从小就一直在看科幻小说,高中时尝试写过一些校园纪实小说和科幻作品,并向《科幻世界》投稿。2007年,我还参加了在成都举办的世界科幻大会,作为一名大学生读者与刘慈欣交流。

这其实是我校园时代未竟的梦想。到了2019年,我开始和阅文集团合作机器翻译项目,因为要了解我翻译的内容,我重新开始读网文,发现很多故事的确很棒。过去人们可能认为阅读网络文学是一种颓废的行为,但现在我们发现网络文学已经成为中国文化的一张名片。而且我惊讶地发现,用这些中文网文作为AI训练数据,效果比英文数据更好,因为中文网文的数量庞大,篇幅也更长,这就很有意思。

于是我开始一边阅读小说,一边创作小说,同时还在开发AI小说引擎。我自己调试并创作了至少1000万字的内容。如果把每一次创作比作一次穿越,我后来统计了一下,我一共穿越了1700多次,每次都是为了探索AI如何写作,以及如何调整模型。在这个过程中,我竟然没有感到厌烦,或者说克服了自己的一些厌烦。我认为这是一件真正有价值的事情,而不仅仅是昙花一现,我认定这是我可以一辈子做下去的事情。

本文来自微信公众号“五源资本 5Y Capital”,作者:五源小酒馆,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

彩云科技 AI探索 故事创作 模型研究
相关文章