AI下半场的「Game Changer」，直让老外惊呼「Amazing」

又一项中国的 AI 技术在国外火了！

近日，海外社交媒体平台 X 上众多关注 AI 的博主对一个来自中国的新技术展开热烈讨论。

有人表示：「中国不是随便玩玩。这事儿影响太大了！」

有的直呼：「中国真的是在突破边界！」

还有的说：「中国不是在『下棋』，他们在重新定义整个『棋局』！」

到底是什么样的技术，竟能让一众老外给出如此之高的评价？

还惊呼「Amazing」「Superb」「Exciting」（小编仿佛在做雅思考试的高级词汇替代练习）。

头部 AI 科技博主 Jaynit Makwana 发帖说：「......It's called AI Flow - a system where models adapt, collaborate, and deploy......」

科技博主 Rishabh 推文表示：「......（它）可能会重塑生成式人工智能在边缘端的运行方式...... 比我们见过的任何技术都更快、更经济、更智能......」

Rasel Hosen 回复评论说：「...... 拥抱一个人工智能与我们的生活无缝融合的未来，真的可能彻底改变协作模式。已经迫不及待想看看它会如何发展了！」

Muhammad Ayan 表示：「这正是我们在实时人工智能部署中所需要的那种架构。」

VibeEdge 更是用「Game Changer」来形容。

小编立即搜索了一下，找到了AI Flow的定义，并且它还有个中文名字——智传网。

智传网（AI Flow）是人工智能与通信网络交叉领域的一项关键技术，即通过网络分层架构，基于智能体间的连接以及智能体和人的交互，实现智能的传递和涌现。

通过智传网（AI Flow），智能可以突破设备和平台的限制，在网络不同层之间自由流动，从云计算中心到终端设备，实现随需响应，随处而至。

更令小编没想到的是，这个技术竟是出自中国的一家央企 ——中国电信。

根据 AI 科技博主 EyeingAI 介绍：「AI Flow by Professor Xuelong Li (CTO at China Telecom and Director of TeleAI) and the team explores how AI can actually work better in the real world.」

原来，智传网（AI Flow）是中国电信人工智能研究院（TeleAI）正在着重发力的一项技术，由其院长李学龙教授带领团队打造。

李学龙教授是中国电信集团 CTO、首席科学家，他是全球少有的光电和人工智能双领域专家，在光电领域的 OSA（美国光学学会）、SPIE（国际光学工程学会）和人工智能领域的 AAAI、AAAS、ACM 学会，以及 IEEE，都入选了 Fellow。

而这些海外博主们之所以会关注到智传网（AI Flow），是源于 TeleAI 团队于 6 月中旬在 arXiv 上挂出的一份前沿技术报告：

AI Flow: Perspectives, Scenarios, and Approaches

报告地址：https://arxiv.org/abs/2506.12479

在这份技术报告挂出后，快速受到全球技术市场研究咨询机构 Omdia 的关注，还发布了一份行业短评报告，在分析生成式人工智能技术落地应用的趋势和方向时，推荐产业各方将 TeleAI 的智传网（AI Flow）技术「On the Radar」。

Omdia 的 AI 首席分析师苏廉节（Lian Jye Su）还在社交媒体平台发布推文表示：

「通过架起信息技术与通信技术之间的桥梁，智传网（AI Flow）为自动驾驶汽车、无人机和人形机器人等资源密集型应用提供了强大支持，同时不会在延迟、隐私或性能方面做出妥协。分布式智能的未来已然来临 —— 在这一未来中，先进应用既能突破设备限制，又能保持实时响应能力与数据安全性。」

AI Flow 到底是什么？又为什么需要它？

翻开技术报告，开篇提到了两个赫赫有名的人物：Claude Shannon（克劳德・香农）和 Alan Turing（艾伦・图灵），一位是信息论的创始人，一位被誉为计算机科学之父。他们分别奠定了信息技术（IT）与通信技术（CT）的基础。

报告指出，IT 与 CT 的发展呈现出双轨并行的态势，一方面不断提升单个机器的性能，另一方面构建网络以实现多台机器间更高效的互联。这种协同效应引发了一场技术革命，如今在人工智能大模型的推动下达到顶峰。

AI 的能力边界正以超乎人们想象的速度扩张，文能赋诗作画写代码，武能驱动机器人、无人机与自动驾驶汽车。更有观点认为我们正在进入所谓的「AI 下半场」。然而，大模型对资源消耗大和通信带宽高的需求，在实现普适智能方面正面临着巨大挑战。

真正的现实是，除了在聊天框里与 AI 对话，我们手中的手机、佩戴的设备、驾驶的汽车，距离真正的「泛在智能」似乎仍有遥远的距离。

于是，一个巨大的悖论也随之浮现：既然 AI 已如此强大，为何它仍未能无缝融入我们日常生活的方方面面呢？

答案其实就隐藏在 AI 强大的外表之下。一个残酷的现实是：几乎所有顶尖的 AI 都无法直接运行在我们身边的终端设备上。它们是名副其实的「云端巨兽」，严重依赖远在千里之外、拥有庞大算力的数据中心。

举个例子，如果你要运行 671B 参数量的 DeepSeek-R1 模型（BF16 满血版），则理论上至少需要 1342 GB 内存，而要保证 Token 输出速度，所需的算力更是让人咋舌。很明显，这些需求已经远远超出了绝大多数手机、汽车等端侧设备的承载极限。

这种绝对的云端依赖为 AI 应用的普及带来了最致命的枷锁：延迟。

正如英特尔前 CEO 帕特・基辛格所言：「如果我必须将数据发送到云再回来，它的响应速度永远不可能像我在本地处理那样快。」—— 这是不可违背的「物理定律」。

对于毫秒必争的自动驾驶汽车以及要求实时响应的外科手术机器人，这种延迟是不可接受的，甚至是生死攸关的。

这便是 AI 普及的「最后一公里」困局：最需要即时智能的场景往往离云端很远；而最强大的智能，又偏偏被困在云端，无法下来。

如何打破这个僵局？过去，行业的思路是造更快的芯片、建更大的数据中心，但这越来越像一场投入产出比急剧下降的「军备竞赛」。

当所有人都执着于如何把算力的砖墙砌得更高时，破局的答案或许来自一个长期被忽视、却更关乎万物互联本质的领域——通信。

智传网（AI Flow）正是这个颠覆性的答案！

它是一套整合了通信网络与 AI 模型的创新架构，目标是要搭建起一座桥梁，让智能本身能够突破平台的限制，在「端、边、云」的层级化架构之间像数据一样自由流动、随需而至，实现 Ubiquitous AI Applications（让 AI 应用无处不在）。

就像它的中文名字一样，「智」代表人工智能，「传」代表通信，「网」代表网络，是一座让「智」能「传」输之「网」。

仔细看过 TeleAI 的技术报告后发现，智传网（AI Flow）是一套组合拳，包含三个核心技术方向。

端-边-云协同

家族式同源模型

基于连接与交互的智能涌现

端-边-云协同分布式推理

为了实现 AI 服务的增强智能和及时响应，智传网（AI Flow）采用了分层式端-边-云协同架构。这三层网络架构可为各种下游任务提供灵活的分布式推理工作流程，是模型协作的基础，而模型协作正是智传网（AI Flow）的一大基石。

首先来看现今通信网络普遍使用的三层网络架构，即设备层（端）、边缘层（边）和云层（云）。

其中，端侧设备通信时延最短但算力很低；部署在基站（BS）和路侧单元（RSU）等边缘节点的服务器算力稍强但通信时延稍长，而云端服务器虽然算力很强，但因为网络路由，通信时延最高。

边缘节点由于靠近终端设备，因此能够提供中等计算能力和相对较低的传输延迟。边缘服务器可充当云层和设备层之间的中介，支持本地化处理和动态任务编排。通过从资源受限的终端设备接管对延迟敏感的工作负载，边缘层可以提高响应速度，同时减少对远程云基础设施的依赖。

然而，与云集群相比，其硬件资源仍然有限。因此，边缘服务器对于工作负载的动态编排至关重要，它可以将计算密集型操作卸载到云端集群，同时直接支持终端层设备，从而确保高效利用分层资源。

容易看出，对于这种架构，有效的动态任务编排至关重要。

为了做到这一点，针对端-边的协同推理，TeleAI 提出了任务导向型特征压缩（Task-Oriented Feature Compression）方法，简称TOFC。该方法可通过在设备上执行融合与压缩，根据通道条件动态优化与任务相关的多模态特征传输。

这种方式能极大减少传输的数据量，在实验中，相比传统图片压缩方式，TOFC 能在保证任务效果的同时，节省高达 60% 的传输数据。

用于端-边的协同推理的 TOFC 系统图示

具体来说，如上图所示，首先由 CLIP 视觉编码器生成视觉特征并对其进行基于 K 最近邻的密度峰值聚类（DPC-KNN），从而大幅减少数据量和计算负载。

然后，采用基于超先验的熵模型对融合后的特征进行编码和解码，从而在保持下游任务性能的同时最大限度地减少数据传输。

最后，训练多个专门用于编码不同特征的熵模型，并根据输入特征的特点自适应地选择最优熵模型。

此外，为了进一步提升效率，智传网（TeleAI）还整合了推测解码（speculative decoding）技术，也就是使用「Draft Token 生成 + 验证」的方法。当用户发起请求时：

设备先「生成 Draft Tokens」

云/边后「验证」

通过推测解码实现的设备与边缘服务器的分层协作框架概览

为了克服传统推测解码中顺序式「Draft Token 生成 + 验证」范式所导致的固有延迟，TeleAI 提出了一种并行式端-边协作解码框架。而且该框架非常灵活，可以轻松地扩展成「端-边-云」三层架构，解决一些更为复杂的任务，如下图所示。

「端-边」两层以及「端-边-云」三层的协同解码示意图

这种模式下，用户能以小模型的速度享受到大模型的质量。实验证明，在数学推理、代码生成等任务上，这种协同方式的生成速度比单独使用云端大模型提升了约 25%，同时还能保证与大模型同等的准确度。

家族式同源模型，如何定制不同大小的智能？

家族式同源模型是指一系列大小不同但隐含特征已对齐的模型，因此可以实现无开销的信息共享和有效协作。

实际上，这套模型并非不同大小模型的简单组合，也不是像混合专家（MoE）模型那样随机激活一定比例的参数，而是能像变焦镜头一样灵活伸缩，让一个大模型可以按需「变身」成不同尺寸，以适应各类终端的算力限制。

更关键的是，它们在协同工作时还能够复用彼此的计算结果，从而避免重复劳动，极大提升效率。不仅如此，该架构支持几乎任意数量参数的模型，使其能够充分利用异构设备的计算能力，从而满足各种下游任务的需求。

实现家族式同源模型的两大核心策略分别是：

权重分解

分层主成分分解（HPCD）

早退出

使用可扩展分支的早退出（EESB）

TeleAI 新提出的 EESB 早退出方法的示意图

这种设计的最大优势在于计算的复用与接力。由于小尺寸模型本质上是家族式同源模型的一个「子集」，当终端设备用 3B 大小的分支完成初步计算后，如果需要更强的智能，它可以将计算的中间结果无缝传递给边缘服务器上的 7B 分支。服务器接收后，无需从头开始，可以直接在 3B 的计算基础上继续向后推理。这种「计算接力」可避免重复劳动，从而极大提升分布式协作的整体效率。

为了让业界能亲身体验，TeleAI 已经开源了一个 7B 参数规模的家族式同源模型，展示了其在技术落地上的决心。

有趣的是，TeleAI 给这个模型命名为「Ruyi」，没错，就是「如意金箍棒」的「如意」。它最大 7B，但可以在 3B、4B、5B、6B 之间任意切换，根据实际需求提供智能能力。

开源地址：

https://github.com/TeleAI-AI-Flow/AI-Flow-Ruyi

https://huggingface.co/TeleAI-AI-Flow/AI-Flow-Ruyi-7B-Preview0704

https://www.modelscope.cn/models/TeleAI-AI-Flow/AI-Flow-Ruyi-7B-Preview0704

基于连接与交互的智能涌现，如何实现 1+1>2？

当舞台和演员都已就位，智传网的最终目标是通过连接与交互，催生出超越任何单体能力的「智能涌现」，实现得到 1+1>2 的效果！

这个理念与诺贝尔物理学奖得主菲利普・安德森（Philip Anderson）在 1972 年提出的「More is Different」（多者异也）思想不谋而合。其背后是业界对于高质量训练数据正快速枯竭的普遍担忧。

TeleAI 认为，未来的 AI 发展，需要从单纯依赖「数据驱动」转向「连接与交互驱动」。

具体来说，通过实现模型（包括 LLM、VLM 和扩散模型等不同模型）之间的层级连接与交互，智传网（AI Flow）可整合多种模态和特定领域的专业知识，生成上下文连贯且全局一致的输出，实现超越单个贡献总和的协同能力。

为此，TeleAI 针对不同类型的任务设计了多种协同模式。

比如 LLM/VLM 智能体的协同就像「圆桌会议」：想象一个场景，用户提出一个复杂的跨领域问题。智传网（AI Flow）可以同时向部署在不同设备上、分别擅长编码、数学和创意写作的多个 LLM/VLM 智能体发起请求。

这些智能体各自给出初步答案后，会进入一个「圆桌讨论」环节，相互参考彼此的见解，并对自己的回答进行多轮修正，最终形成一个远比任何单个智能体独立思考更全面、更准确的答案。

传统的仅服务器范式与设备-服务器协同范式的比较

TeleAI 也通过大量实验验证了智传网（AI Flow）各组件的有效性，更多详情请参阅技术报告。

这三大支柱共同发力，使得智传网（AI Flow）不再是一个空想的理论，而是一套具备坚实技术内核、直指产业痛点且路径清晰的系统性解决方案。它为我们揭示了 AI 发展的下一个方向：重要的不再仅仅是计算，更是连接。

AI 下半场，答案在「连接」里

从社交媒体的热议，到行业分析报告的「Game Changer」评价，智传网（AI Flow）无疑为我们描绘了一幅激动人心的未来图景。它不仅是 TeleAI 在 AI 时代下出的一步战略好棋，更代表了一种解决当前 AI 领域一大核心矛盾的全新思路。

回顾全文，智传网（AI Flow）的破解之道是系统性的：它没有执着于打造一个更强的模型或更快的芯片，而是着眼于连接与协同。通过搭建「端-边-云」的层级化舞台，引入能灵活伸缩、高效接力的「家族式同源模型」，并最终催生出「1+1>2」的智能涌现，它成功地在强大的 AI 能力与有限的终端算力之间，架起了一座坚实的桥梁。正如中国电信 CTO、首席科学家，TeleAI 院长李学龙教授说的那样：「连接是人工智能发展的关键。」我们相信，这也是通往「AI 下半场」的关键。

人工智能的进一步发展离不开通信和网络基础设施，而这恰恰是运营商特有的优势。实际上，也正是因为拥有庞大网络基础设施和深厚云网融合经验，中国电信才能提出并实践这一框架。当 AI 不再仅仅是运行在网络之上的应用，而是与网络本身深度融合、成为一种可被调度和编排的基础资源时，一个全新的智能时代便开启了。

本文来自微信公众号“机器之心”（ID：almosthuman2014），作者：关注通信的，36氪经授权发布。

AI Flow 到底是什么？又为什么需要它？

端-边-云协同分布式推理

家族式同源模型，如何定制不同大小的智能？

基于连接与交互的智能涌现，如何实现 1+1>2？

AI 下半场，答案在「连接」里

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签