原创 奇绩创坛 2025-04-30 20:56 北京
与谢杨、岂凡超、杨新宇、卢策吾以及更多 AI 创业者、科研学者和开发者面对面交流
关注奇绩的小伙伴,奇绩潜空间第七季活动开始报名,第一期活动时间为 5 月10 日。
第七季我们邀请到了 Agentic Browser - Fellou & Authing 创始人谢扬,深言科技创始人兼 CEO 岂凡超,卡内基梅隆大学博士生杨新宇,上海交通大学计算机系教授卢策吾。
【第七季第一期】谢扬——Agentic Browser - Fellou & Authing 创始人,连续创业者,阿里云最有价值专家 (MVP)。早年曾任字节跳动核心技术人员,主导 Serverless 平台研发,服务字节系多款亿级用户产品。13 岁开始编程,长期专注于云计算、身份认证、人工智能等领域,拥有丰富的技术与创业经验,入选福布斯亚洲 30 Under 30。致力于打造全球化 AI Agent 身份基础设施,提出“浏览器 + AI + 工作流”概念,推动浏览器向智能代理平台的演进。本次谢扬将带来《Agentic system: Control and Accuracy》的分享。
【第七季第二期】岂凡超——深言科技创始人兼 CEO,清华大学计算机系博士、电子系学士、工商管理第二学士,发表顶级论文 30 余篇,申请发明专利 20 余项,曾任北京智源人工智能研究院“基于大模型的文本处理创新中心”主任。获中国人工智能学会优秀博士论文、全国研究生人工智能创新大赛总冠军、中国 AI+ 创新创业大赛 NLP 大赛第二名。获福布斯亚洲/中国 30U30、36 氪 2023 年度 36Under36 创业者等荣誉。打造了AI原生的个性化信息助手语鲸等产品。本次岂凡超将带来《AI 原生的信息获取和分发:思考与实践》的分享。
【第七季第三期】杨新宇——卡内基梅隆大学博士生,现 InfiniAI 实验室与 Catalyst 实验室成员,本科毕业于上海交通大学致远学院 ACM 班。主要从事机器学习系统与基础模型的交叉研究,致力于探索以数据与硬件为驱动、以第一性原理为指导的算法与系统协同设计,从而推动可扩展、可泛化的基础模型在现实场景中的应用。“Foundation Models in the Wild”系列国际研讨会的发起人,联合创办 ASAP 学术讲座,长期致力于基础模型领域的开源共享与协同交流。本次杨新宇将带来《数据,硬件驱动下的基础模型架构设计》的分享。
【第七季第四期】卢策吾——上海交通大学计算机系教授,国家级高层次人才,海外高层次人才计划青年项目获得者,科学探索奖获得者,主要从事具身智能、计算机视觉的研究。曾获《麻省理工科技评论》中国 35位35 岁以下科技精英,2019 年度“求是杰出青年学者奖”,上海市科技进步特等奖,教育部青年科学奖,吴文俊自然科学一等奖,国际机器人顶会 IROS 最佳论文,Siggraph asia 时间检验奖等荣誉。以通讯或第一作者在《Nature》,《Nature Machine Intelligence》,TPAMI,CVPR等高水平期刊和会议发表(含接收)论文100多篇,担任《Science》,《Nature Machine Intelligence》审稿人,CVM 2018程序主席,CVPR 2020,ICCV 2021,IROS 2021领域主席。本次卢策吾将带来《具身智能研究与产业化》的分享。
【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。
除嘉宾分享外,每期在北京和上海线下都设置了【匹配合伙人 Co-Founder Matching】环节,在这里你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流。(往期参与者大多是来自大厂的算法工程师、架构师、AI 产品经理、创新战略部经理及创业者们)。欢迎扫描下方海报二维码报名。
【奇绩潜空间】第六季内容回顾
【内容回顾】 第一期嘉宾
张月光——沐言智语创始人
纯闭门分享,内容暂不以任何形式对外公开。
【内容回顾】第二期嘉宾
杨松琳—— MIT 计算机科学与人工智能实验室博士生,多篇论文被 ICLR 2025、NeurIPS 2024 等顶会收录
杨松琳提出 Test Time Scaling 与新型架构成突破重点:Transformer 效率瓶颈催生高效 RNN 与动态稀疏注意力技术革新 。从外积更新到 Block 稀疏:衰减机制与硬件优化正重塑长文本处理的下一代模型架构。
【观点节选】
上下文相关的 Position Encoding 将会成为 RoPE 后的重要热点。
RoPE 目前有两种确定的改进方案:一种叫做 NoPE,它的做法是直接把 Position 空间去掉,但实际效果并不好;另一类别主要在做长度外推。但最后大家发现,直接增大 RoPE 的 base,然后在长文本上继续训练,整体上的超长文本能力会更好一些。RoPE 其实是上下文无关的位置编码,它的值和前后词的内容没有关系。而最近有研究提出了一种 Contextual Position Encoding,在一些任务上,比如 selective Copy、counting、Flip-Flop,比起 RoPE 这种相对位置编码,效果会更好一些。
动态稀疏注意力(Native Sparse Attention, NSA) 能力在特定条件和任务下能够超过全局注意力。
传统上大家认为稀疏注意力只是掉点,也就是效果只能保持,无法提高,但 Native Sparse Attention 通过学习自己的注意力分布,能够达到不输于全局注意力的效果。这表明,通过设计新的架构并进行预训练,可能会得到比现有架构更好的效果。
非 Next-Word Prediction 的新架构是未来模型研究的潜在方向。
目前的模型基本上都是基于 next word prediction,但最近有很多研究在做 diffusion large language model,用扩散来做文本生成。Meta 去年年底推出的一个模型,做的是 next concept prediction,而不是直接做 next word prediction。此外,还有一些研究在做 Multi-token Prediction,比如 DeepSeek-V3 也有相关的模块。
【内容回顾】第三期嘉宾
周衔——生成式物理引擎 Genesis 一作,CMU 机器人研究所博士毕业
纯闭门分享,内容暂不以任何形式对外公开。
【内容回顾】第四期嘉宾
刘鹏飞——上海交通大学副教授,清源研究院院长助理,生成式人工智能研究组负责人
刘鹏飞教授将生成式 AI 区分为两种不同的发展维度,利用 Scaling Law 与知识节点结构的独特角度深入分析预训练、后训练以及测试时计算训练对于模型智能程度的提升,详细介绍了其中所蕴含的强化学习扩展基本原理和 2.0 时代下的大模型数据工程。
【观点节选】
推荐垂直领域创业公司蒸馏好的模型,验证模型在目标领域能力边界以及收益。
相比直接投入 RL Scaling,蒸馏成本低且数据训练效率更高。在 RL Scaling 时代,个人的专业洞察和独特见解在特定领域超过大型公司,可以通过构建奖励模型(reward model)转化为模型优化的方向。有两种转化方式:一是转化成 reward model,二是转化成 SFT 数据。前者比较好且省事,把最强的专业经验交给模型,有可能以少胜多。此时我才建议用 RL Scaling,因为直接冷启动的成本很高。
真实数据非常宝贵,很多动态过程数据需要持续更新。
“真实数据已经被采尽了”,在所有的动态交互过程数据上都不成立,是自然界比较静态的数据、互联网数据被挖尽了。真实数据需要源源不断地更新,有 Infra 就去收集它,用 AI 去赋能,去洗去补全,去更好地使用数据。因为真实数据合成不出来,采得越多越好,而且合成数据也不是从 0 到 1 的,它是和真实数据是完美互配的过程。认知工程要求构建更多的 infrastructure,采集更多以往没有采集的场景下的真实数据。
GRPO 应作为算法验证方案的首选,其次是 PPO。
DPO 的效果仅限于第一幕阶段,局限性主要源于其信号反馈机制。相比仅提供对比损失、缺乏直接的负样本信号的 DPO,GRPO 和 PPO 采用直接的正误判断机制,支持单次更新完成优化。其中,GRPO 采用相对轻量级的价值模型设计,在保证效果的前提下显著降低了训练成本。当前最优模型是在 PPO 基础上改进价值模型架构的版本,其工作稳定性和易用性优于 GRPO,但 GRPO 成熟的领域适配性,在整体性能相当的情况下具有更高优先级。在领域内对 DPO scaling 完成充分验证之前,DPO 已不再是追求最佳性能的选择。可以考虑采用迭代式拒绝采样方案,在特定场景下能提供最佳性价比,在成本受限时仍值得尝试,效果类似于迭代式监督微调。