AI大模型工场 2024年10月21日
李开复谈中国AI优势,制造实惠推理引擎或成国内大模型最大竞争利器
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国大模型公司虽面临诸多窒碍,但通过多种方式降低成本,提升竞争力。如零一万物打造低成本高性价比模型,多家公司采用混合专家模型架构,且在数据收集方面不断创新。中国公司在大模型领域取得了显著成果。

🎯零一万物由李开复领导,在较小数据集上训练出对算力要求低的模型,创造模基共建方法,打造Yi-Lightning模型,其推理成本比OpenAI GPT4o便宜31倍,在大模型排名中位列全球第三。

💡中国大模型公司采用混合专家模型架构,将多个神经网络集合,以较少算力达到相同智能水平,但训练失败可能性较大,中国公司似乎掌握了此架构,零一万物和DeepSeek做出世界最快的混合专家模型。

📚鉴于获取尖端AI芯片的禁令和难度,中国AI领域玩家竞相开发高质量数据集,零一万物采用优于传统的数据收集方法,中国在工程人才方面有优势,能更好、更快、更可靠和更低成本地实现落地。

2024-10-21 12:23 北京

离OpenAI最强模型只有五个月的距离


编辑|星奈

来源|金融时报


与西方同行相比,中国大模型公司面临着尖端芯片获取、资金投入等方面的窒碍,但是他们正在通过降低成本来打造具有国际竞争力的模型。

在头部的初创企业中,如零一万物(01.ai)和DeepSeek选择使用优质但较小数据集来训练AI模型、招聘一批二十多岁的技术狂人,不但能做独树一帜的科研,而且成本也较低。

科技巨头中,如阿里巴巴、百度和字节跳动,也燃起了大模型价格战,将调用大语言模型生成回答这段技术所需的“推理”成本降低了 90% 以上,仅为美国同行的价格的极小一部分。

国际情势下,中国公司还必须应对华盛顿对华禁止出口最尖端的英伟达 AI 芯片,因为这些芯片被认为是美国至今领跑全球 AI 大模型技术的关键。

位于北京的零一万物是由前谷歌中国总裁李开复领导。他表示,零一万物在较小的数据集上训练出了对算力要求较低的模型,并且创造了模基共建的方法,结合了硬件、芯片、内存、AI基础软件的垂直整合和优化,打造了Yi-Lightning(闪电模型)。该模型比OpenAI GPT4o便宜31倍的推理成本。

本周,在由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员所发布的大模型排名中,零一万物凭借 Yi-Lightning 模型与发布Grok-2、与马斯克创办的xAI并列为全球排名第三的大模型公司,仅次于 OpenAI 和谷歌的最新模型。

LMSYS是基于用户提出真实问题,然后针对不同模型的回答给出盲测投票,最终汇总成为对各个模型的评分。OpenAI、谷歌都在这里发布所有的模型,并接受LMSYS的排名。包括字节跳动、阿里巴巴和 DeepSeek 等其他中国大模型玩家,也悄悄爬上了 LLM 排名榜。

李开复告诉《金融时报》:“中国的优势在于制造真正实惠的推理引擎,这是AI应用蓬勃发展最重要的一件事。”

零一万物 Yi-Lightning 的推理成本是每百万个 token 收取 14 美分(0.99 元人民币),而 OpenAI 的较小模型 o1-mini 每百万个 token 则需要 26 美分。与此同时,OpenAI 的更大尺寸的模型 GPT-4o 的推理成本为每百万个 token 4.40美元。AI 大模型生成回答所用的 token 数量取决于查询的复杂度。

李开复还表示,Yi-Lightning 模型的“预训练”成本为 300 万美元,这指的是模型关键训练阶段的成本,之后可以根据不同的应用场景进行微调或定制。这预训练成本仅为 OpenAI 训练GPT-4的3%,而且Yi-Lightning性能还超越了GPT-4。他补充说,零一万物的科研北极星不是“无论多贵多大,打造世界第一模型”,而是要打造一个世界第一梯队的模型、但是成本超低,能打造出高性价比模型,让开发者构建应用而不被推理成本压垮。

包括零一万物、DeepSeek、MiniMax 和阶跃星辰在内的许多中国大模型公司,都采用了所谓的“混合专家”模型架构,一种被美国研究人员率先提出的模型架构。

与 “从互联网和其他来源抓取数据构建起庞大数据库上,并一次性地训练一个庞大的‘稠密模型’”不同,“混合专家”模型选择将多个对不同领域可称为“专家”的神经网络集合到一起。

研究人员认为,混合专家模型架构是以较少的算力,达到与稠密模型相同智能水平的关键技术。但这种方法训练失败的可能性更大,因为在模型训练过程中需要同时协调多个“专家”模型,而非集中关注单个模型的训练。因此不少美国公司(如Meta的Llama)就没有开发出来,而中国公司似乎掌握了“混合专家”模型架构。尤其是零一万物和Deepseek,做出了世界最快的混合专家模型。

鉴于获取尖端AI 芯片供给的禁令和难度,中国 AI 领域的玩家在过去一年中一直在竞相开发高质量数据集来训练这些“专家”,使得自家模型具备与竞争对手不同的特色。

李开复表示,零一万物采用了远远优于传统网络抓取方法的数据收集方法,包括扫描书籍,爬取深网区的数据,使用新颖的合成数据技术等。

“工程师在数据标注和排序方面需要做很多不为人知的艰苦工作,”但他补充说,中国拥有大量技术厉害且刻苦耐劳的工程人才,在这方面比美国更有优势。

“中国的优势不一定能在预算不封顶的情况下做出前所未有的突破性研究,但肯定能更好、更快、更可靠和更低成本地实现落地”,李开复说。


来源:Chinese AI groups get creative to drive down cost of models,https://www.ft.com/content/0a6da1bb-2bda-40f3-9645-97877eb0947c


AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。



数据支持天眼查,大模型独家合作账号


— END —


监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field


  


大模型应用创业者,你怎么看


■ 百度文心一言,阿里通义千问   ▍通用大模型案例

 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例



上次介绍一周找了五个情感陪伴AI产品聊天,我感到更空虚寂寞了?





本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

中国大模型 零一万物 混合专家模型 数据收集
相关文章