原创 奇绩创坛 2024-12-06 19:45 北京
与宋亚宸、季宇、叶添、刘琦以及更多创业者面对面交流
关注奇绩的小伙伴,奇绩潜空间第五季活动开始报名,第一期活动时间为 12 月 15 日。
【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。
第五季我们邀请到 VAST 创始人兼 CEO 宋亚宸、行云创始人兼 CEO 季宇、Physics of LLM 2.1&2.2 作者叶添、Reka AI 联合创始人刘琦与大家交流经验。
【第 1 期嘉宾介绍】宋亚宸——VAST 创始人兼 CEO,本科毕业于约翰斯·霍普金斯大学,曾在商汤科技落地多个从零到一的人工智能项目,实现 AIGC 技术在动画及游戏行业的商业化落地,也曾参与创立人工智能独角兽 MiniMax。2023 年创立 VAST,希望能通过打造大众级别的 3D 内容创作工具,建立 3D 的 UGC 内容平台,让基于 3D 的空间智能成为用户文娱体验、内容表达、提升新质生产力的关键要素。本次分享他将带来《我们从 700 万全球用户生成的 3D 模型中看到了 3D 生成的哪些可能》的主题分享。
【第 2 期嘉宾介绍】季宇——清华大学计算机科学与技术系博士,曾在华为担任海思昇腾芯片编译器专家,负责多个昇腾编译器项目,并在 AI 编译器领域和处理器微架构领域进行挑战性问题攻关。他于 2023 年 8 月创立了行云,该公司致力于研发下一代针对大模型推理场景的高效能 GPU 芯片,并在 2024 年连续完成总额数亿元的天使轮及天使+轮融资。季宇的主要研究领域包括神经网络加速器、编译器和面向系统优化的机器学习。在本次分享中季宇将带来《谁困住了 AI 产业——大型机化的计算机形态与变革的可能性》的分享。
【第 3 期嘉宾介绍】叶添——清华大学姚班,卡内基梅隆大学博士生,Physics of LLM 2.1 和 2.2 作者,于 Meta 任助理研究员(Research Scientist Intern)。研究兴趣主要集中在大语言模型的推理机制。曾在顶级会议 NeurIPS 上发表研究论文。此外,曾两次进入中国数学奥林匹克竞赛国家集训队。在本次分享中叶添将分享《揭秘大语言模型推理机制——超越人类的二级推理》。
【第 4 期嘉宾介绍】刘琦——香港大学计算机科学系助理教授,Reka AI 联合创始人,领导 Reka AI 多模态大模型的训练和落地,英国牛津大学计算机科学博士,新加坡国立大学硕士。在加入香港大学之前,他曾在 Google DeepMind、Facebook AI Research 和微软研究院工作,专注于开发应用于工业场景的大型语言模型和聊天机器人。他的研究方向包括自然语言处理和大模型应用,研究成果发表在 NeurIPS、ACL、TACL 和 CVPR 等顶级会议和期刊上。他曾获得福布斯亚洲“30 岁以下 30 人”和 AI 2000 人工智能全球最具影响力学者等奖项。在本次分享中刘琦将分享《多模态大模型与智能 Agent 的训练与实践:打造自动化驱动的智能化未来》。
除嘉宾分享外,每期在北京和上海线下都设置了【匹配合伙人 Co-founder Matching】环节,在这里你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流。(往期参与者大多是来自大厂的算法工程师、架构师、AI 产品经理、创新战略部经理及创业者们)。
第五季第一期活动在北京线下我们将特别开展 AI 创业者自组织会议(AI Unconference)。报名通道已开启,欢迎扫描下方海报二维码报名。
【奇绩潜空间】第四季内容回顾
【内容回顾】 第一期嘉宾
李卓翰——vLLM 创始团队成员,加州大学伯克利分校博士生。
李卓翰与大家分享了关于 vLLM 项目、vLLM 推理引擎以及相关模型推理优化等在多方面的问题和未来,深入浅出地讲解了 vLLM 的发展、特性、开源社区建设、商业化、差异化、技术权衡以等相关内容。
【观点节选】
vLLM 目前主要专注于服务器端,致力于处理大规模、高吞吐量、大批量推理的场景,不涉及小规模场景以及跨不同虚拟机实例的负载均衡。最终,无论上层算法如何变化,我们都期望 vLLM 具备足够的健壮性,能够支持各种不同的算法。
过去,大家更多关注的是训练效率,而现在推理效率也成为了考虑的重点,尤其是在 o1 这类模型出现之后。在模型设计上,我们可能会为了提升推理效率而牺牲预训练规模法则上的最优解。
亚马逊的 Rufus 推理引擎采用了 vLLM 技术,在 Prime Day 期间成功应对了巨大的工作负载。发现自己的技术真正被部署并发挥作用,是一件极具成就感且令人振奋的事情。
【内容回顾】第二期嘉宾
朱亦博——跃星辰系统负责人,字节跳动 AI Infra 前负责人。
朱亦博主要向我们分享了关于全栈式 AI Infra 设计与搭建的思考,他深入讲述了自己关于从模型到集群硬件如预训练、算力需求、硬件挑战、硬件机遇以及集群规模等多个问题的独到见解。
【观点节选】
预训练领域并非已无发展空间,而是进入下一发展阶段所需的资源极为庞大,可能需要高达 10 万张计算卡的支持。许多公司并未拥有这样的尝试机会,而国际顶尖公司仍在积极进行预训练工作,并构建起规模达 10 万卡的计算集群。
像 o1 这样的新型模型对计算能力提出了新的挑战。这些模型所需的计算力未必低于预训练,因为强化学习的可扩展性取得了显著突破,增加 10 倍的算力能够持续提升性能。这种趋势预示着对计算力的强烈需求,以及在基础设施层面更加注重计算力的利用与优化。
在训练集群中,最大的挑战来自于“灰色故障”,这类故障不易被传统监控系统捕捉。例如,某张 GPU 性能下降 10%,就可能导致整个集群的训练速度受影响。在万卡规模的训练中,这相当于损失了 1000 张卡的性能,这是难以承受的损失。
【内容回顾】第三期嘉宾
袁进辉——硅基流动创始人兼 CEO,前微软亚洲研究院主管研究员。
袁进辉分别介绍了创业经历、相关技术研究以及 Infra 创业等 多方面内容,如关于创业公司与云厂商的竞争、训练-推理融合趋势、端侧和云侧以及边缘端芯片机会关于硬件或系统层面将发生何种变化的设想等等。
【观点节选】
选择专注于推理业务的原因在于:训练所需的 token 量如同泳池般有限,而推理所需的 token 量则如江河般源源不断。训练业务的客户集中度较高,大多集中于大型公司,且没有机会在数千或数万计算卡的环境下精炼产品。最终,推理领域拥有更大的发展空间,大型模型训练的提升潜力有限,过重的多任务固定利用率(MFU)理论上可达到 70%,目前仅实现了 50%-60%,剩余的提升空间有限。而推理领域则仍有广阔的发展空间,特别是 o1 模型所代表的测试时计算(test time compute)出现后,将带来新的机遇。
推理市场目前已成为共识,必然面临与云服务提供商的竞争。然而,市场尚处于快速发展阶段,只要产品做得足够优秀,在大型厂商的激烈竞争中仍能占据优势地位。传统公有云在硬件采购上的规模效应优势并不显著,因为目前云厂商体系之外的算力资源丰富,这些资源都需要基础设施方面的合作伙伴。
从长远来看,训练与推理可能会走向融合,正如搜索、推荐系统从离线训练加速迭代到在线学习。用户数据能够迅速被输入系统进行训练。目前 o1 的出现有望解决数据枯竭的问题,同时提升训练与推理的性能上限。
【内容回顾】第四期嘉宾
鱼哲——Lepton AI 产品负责人,前阿里云高性能 AI 平台产品负责人。
鱼哲从产品和市场的视角出发,深入探讨了 AI 应用层公司在 AI Infra 方面的核心需求,他提出 Lepton AI 的 2x2 框架以优化AI应用,强调AI基础设施优化需系统性方法等相关内容。
【观点节选】
基础设施的优化是一个系统性工程,并非仅仅针对单一指标进行优化。其核心优化目标是充分挖掘物理机器的浮点运算能力(FLOPs),以实现极致的性能、低延迟以及高吞吐量。
在基础设施方面,异构集群、数据处理以及相应的供应商管理将持续成为挑战。中国拥有众多新增的数据中心和硬件资源可供利用。
在 AI Infra 领域,云服务提供商的优势在于拥有出色的供应链管理能力。然而,它们往往难以迅速适应最新的技术变化,因为需要处理许多历史遗留问题,这并不一定构成云厂商的机遇。
感兴趣的小伙伴,欢迎扫描海报二维码报名参加。此外,我们还创建了奇绩创业者交流群,欢迎扫描下方二维码添加小助手进群交流。
加入 #奇绩创业社区#
扫描创业营二维码,提交奇绩创业营申请表,即可【免费】加入社区,【滑动】查看并免费领取创业社区独家资源:
左右滑动查看更多资源