不走Transformer路线，彩云科技推出通用大模型云锦天章

36kr 2024年11月14日

不走Transformer路线，彩云科技推出通用大模型云锦天章 | 最前线

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

彩云科技发布了基于全新模型架构DCFormer开发的通用大模型云锦天章，该模型在虚构世界观下赋予小说人物基础能力，并能高速进行文字扩写、缩写和风格转换等。与传统Transformer模型相比，DCFormer架构在相同训练数据下，算力智能转化率提升了1.7到2倍，且能与现有模型叠加降低成本。彩云科技已开源DCFormer的模型代码、权重和训练数据集，旨在提高AI效率，降低成本，加速AI时代到来。公司目前将DCFormer主要应用于自身业务，例如提升彩云小梦的创作能力，未来有望实现更强的智能水平和用户活跃度。

🤔彩云科技发布了基于DCFormer架构的通用大模型云锦天章，该模型能够在虚构世界观下赋予小说人物编程、数学等能力，并能高速进行文字扩写、缩写和风格转换等操作，同时具备问答、数学、编程等基础能力。

🚀与传统的Transformer模型相比，DCFormer架构在相同训练数据下，算力智能转化率最高可提升1.7到2倍，并且能够与现有的Transformer模型叠加使用，降低大模型的训练和推理成本。

📚彩云科技已将DCFormer的模型代码、权重和训练数据集开源到Github，旨在推动AI领域的技术发展和应用，降低AI技术的使用门槛。

💡彩云科技开发DCFormer的初衷是为了解决AI运行过程中的高能耗问题，通过提升模型效率来降低成本，加速AI时代的到来。

✍️目前，彩云科技将DCFormer主要应用于自身业务，例如提升彩云小梦的创作能力，未来有望实现更强的智能水平和更高的用户活跃度。

文 | 王方玉

编辑 | 苏建勋

目前绝大多数生成式AI产品的底层技术都源于2017年谷歌提出的Transformer模型架构，而国内一家AI创业公司——彩云科技却独辟蹊径，开发出了全新的模型架构DCFormer，并基于此推出新产品。

11月13日，彩云科技在北京总部发布了首款基于DCFormer架构开发的通用大模型云锦天章。

据CEO袁行远介绍，云锦天章可以实现在虚构世界观的基础上，赋予小说人物编程、数学等基础能力，可以高速针对大量文字进行扩写、缩写，针对文章风格进行大容量更换，同时兼具其他模型的问答、数学、编程等基础能力。

除了擅长的应用场景不同，云锦天章与常规大模型最大的差异还在于底层模型。据介绍，通过改进注意力矩阵，在相同训练数据下，DCFormer架构最高可以将算力智能转化率提升至Transformer的1.7到2倍。

此外，DCFormer是在Transformer的基础上进行改进，能够和现有的模型叠加，而不是互斥，因此所有基于Transformer架构的大模型都能在DCFormer的基础上降低成本。

彩云科技关于DCFormer架构成果的相关论文已于今年5月在第41届国际机器学习大会ICML 2024正式发表，该会议是国际机器学习领域的三大顶会之一。此外，DC Former的模型代码、权重和训练数据集，也已经在Github全部开源。

为何选择另辟蹊径采取DCFormer架构？袁行远告诉36氪，AI在运行过程中对能源的巨大需求已成为行业共识，改善模型底层架构以提高效率是应对这一挑战的最佳策略。模型效率的提升，也可以有效地降低人工智能升级迭代的成本，加速AI时代的到来。

虽然DC Former架构可以压缩大模型训练推理的成本，但彩云科技在商业化探索方面相对谨慎，关注投入产出比。

目前彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品，在全球市场获得了超过1000万美元的ARR（年度经常性收入），是国内为数不多能够实现盈利的人工智能公司。其最近一轮融资是由快手前CEO宿华个人投资的B2轮，投前估值达到1.2亿美元。

袁行远告诉36氪，彩云科技对DCFormer架构的研究及应用开发，主要服务于自身业务。目前，彩云小梦基于V3.5模型，在保持逻辑通顺与描写细致的前提下单次可以创作几百字到一千字的内容，未来有望突破到2-5千字的创作，实现更强的智能水平和更高的用户活跃度目标。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签