9月AI观察：新模型、新应用，AGI下半场怎么走？

原创深耕AI的 2024-09-29 19:30 北京

革新仍在继续

2024年即将过去3/4，业内对AI技术发展速度渐存犹疑之时，浪潮的引领者们交出了新答卷。

回看9月，OpenAI、苹果、Meta、字节跳动等科技大厂在模型层和硬件层都激起了不小的水花，MiniMax等新兴力量也有重要进展。

深耕AI领域的云启密切关注行业动态，9月的尾声，我们用这期「Attent!on云启科技手账」梳理本月值得关注的行业动态，并分享我们的观察和思考，和大家一起在信息汪洋中看清方向。

OpenAI发布GPT-o1

新范式能改变什么？

北京时间9月13日凌晨，OpenAI一反常态，在没有前期PR铺陈的情况下发布了新一代大模型系列GPT-o1，被外界称作“草莓”的项目揭开了面纱。

这个从“1”开始命名的新模型是OpenAI首次通过强化学习训练的成果。复杂推理是GPT-o1的核心能力所在，其在数学、编程问题处理中均有突出表现，OpenAI团队称其为该公司迄今推理能力最强的模型产品。这背后是大模型技术路线的一个变化：通过强化学习，o1能自主产生并完善思维链（CoT）。OpenAI创始人Sam Altman在社交媒体X称，Open o1是新范式的开始。

思维链是指把一个问题的解决过程拆分成几个步骤，逐步解决。根据认知学「双过程（dual process）」模型，人脑进行决策时有两种模式：一种是快速、自动、无意识的系统1，另一种是缓慢、深思熟虑、有意识的系统2。思维链的能力是靠近系统2的关键。在此前“predict next token”的训练范式下，GPT只具备系统1的能力。而GPT-o1具备了系统2，这意味其在挖掘存量知识之外，也拥有了产生新知识的能力。

不过，从o1-preview和GPT-4o的测评对比结果来看，在个人协作、文本编辑等语言处理任务中，GPT-4o仍然保持优势，这表明o1在处理日常交流、文本生成等任务中暂不具备优势。

而GPT-o1被业界寄予的另一个期待是，在数据和算力资源“堆量”瓶颈渐显的当下，能否将关乎模型能力提升的scaling law路径由预训练侧迁移至推理侧和强化学习上？答案仍需时间揭晓。

云启快评

GPT-o1的核心变化是大语言模型和强化学习路线的结合，从而实现了思考、推理的大幅提升。在思维链过程中，PRM（Process Reward Model,过程奖励模型）会对LLM每一步给出的解法打分，使其实现最优解。从理论上说，GPT-o1在代码、数学及其他泛逻辑推理等对深度思考有高要求的场景下有更好表现。

但值得关注的是，GPT-o1基准测试选定的数学、编程场景均有明确答案，易于reward model的训练运行。但在更多没有清晰的答案的复杂场景中，reward model也会变得更加复杂，对应的数据收集也会面临更多挑战。

通用性和泛化性是本轮AI浪潮中区别于上一轮的重要特质。目前GPT-o1暂未在推理能力的泛化性上呈现出明确路径，后续迭代还有很大的期望空间。

国产视频生成大模型爆发

Sora还值得期待吗？

Sora“现货”迟迟未发，国内生成式AI玩家们已经在视频生成领域卷到了next level。最近一个月里，MiniMax、通义、豆包、上海AI实验室等大模型团队均推出了视频生成模型。可见，这已成为大模型创业公司和科技大厂都不愿意错过的赛道。

8月30日，云启天使轮被投、大模型MiniMax发布包括“多模态全家桶”，其中的视频生成模型abab-video-1 备受关注。该模型能够根据文本提示生成高分辨率、高帧率的原生视频，其在压缩率、文本响应性和风格多样性上都有较好表现，可根据文字生成6s时长的视频内容，并支持生成文字。

而且值得一提的是，abab-video-1 也是国内为数不多已经开放使用的“现货”，发布当日起，用户即可在海螺官网使用。

另外收获较多关注的是科技大厂的视频生成模型。9月中下旬，阿里的通义万相发布视频生成模型，最长支持5s时长的视频生成，每秒30帧，分辨率720P。字节推出豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，该模型以支持实现自然连贯的动作与多主体复杂交互为特征。

云启快评

2024年以来，AI视频生成在时长、分辨率、一致性等关键维度上都有显著提升。

但视频生成模型的使用成本距离商业化仍有距离。从单卡生成耗时来看，生成7秒视频需耗数十分钟，相应功能嵌入App后亦产生高昂成本。故从降本角度而言，还有不短的路要走。

另在商业模式上，各方也在积极探索电商营销、影视创作、医疗、教育落地场景。但视频工作流对于AI生成素材的真实需求有多大？仍有待从视频生成技术迭代和更多商业实践中验证。

苹果第一代AI手机面世

智能手机的引领者落后了吗？

秋收9月，头部手机品牌也结出了新果实。9月10日，两大头部手机品牌苹果和华为同步“上新” ，分别在软件和硬件层面为市场带来水花。

引领了智能手机时代的苹果，把新推出的iPhone16系列定义为史上第一台为AI设计的手机。但在AI功能整体落地上比较克制，主要的卖点放在了“视觉智能”上——机身侧面新加入的“相机控制”按键同时也是AI读取图片信息、生成相关内容的入口。

此外，AI算法运行速度的提升、升级的相机功能以及AI笔记功能等是此次更新的看点。特别是芯片，包含基础机型在内的iPhone16全系均采用第二代3nm芯片A18。该芯片具备16核神经网络引擎、机器学习能力翻番。

但在最受期待的软件生态互联互通层面，iPhone16系列没有表现出明显的AI痕迹。事实上，对于手机这个业已成熟的红海品类而言，要在普遍3-4年的用户换新周期找到新的增长曲线，软件或硬件层面的重大革新至关重要。

而拥有完备产品生态的苹果曾被业内视作有这个机会。但此次发布的AI功能来看并不符合预期，甚至有调侃称，声势浩大的发布会只让大家记住了一个相机按键。

相较之下，同日发布的华为高端线产品三折叠屏MateXT在发售之初的市场表现更超出预期。19999元起步的价格并不算低，但开售当日所有型号迅速售罄，黄牛价也水涨船高，直至9月下旬才有所回落。这也再次印证了，在增长乏力的手机市场，折叠屏是为数不多的增长点。

云启快评

面对手机用户漫长的换新周期，以及硬件越来越卷不动的趋势，软件功能的更新依旧是提升用户购买意愿的关键。苹果等头部手机品牌基于AI能力的后续功能更新仍值得期待。

但模型的“分工”需要进一步厘清。哪些功能或者一个功能中的哪些部分应该落在端侧模型实现？哪些功能需要依托于云端模型？明确这个问题，或更有益于在尽可能兼顾手机硬件性能的前提下更好进行AI功能的创新。

Meta发布最贵AR眼镜原型

硬件革新为何从眼镜发力？

打造爆款单品Meta Rayban后，Meta Meta 近日发布首款AR眼镜原型产品Orion。这款仅硬件成本就高达1万美金的AR眼镜，在多个关键指标上都领跑行业。

例如，在对交互体验有决定性影响的视场角（FOV）维度下，Orion采用的光学级碳化硅在保证画质的情况下，提供高达 70 度的视场角（FOV），市面上大多数 AR 眼镜的视场角只有 30-50 度。此外，仅100克的本体重量也打破人们对AR眼镜太大、太沉的印象。

当然，作为一款处在原型阶段的产品，Orion和消费市场之间还有一段距离。但一个难以忽视的现象是，在以AI为代表的底层技术革新契机之下，眼镜正在成为智能硬件领域玩家们发力最多的品类之一。从云启Pre-A项目蜂巢科技等推出的AI音频眼镜，再到以Meta Rayban为代表的具备视频拍摄功能的眼镜，一系列搭载了大模型功能的眼镜正在“攻占”智能硬件热销榜。

由此，眼镜会否成为手机之后的新一代终端，也值得关注。

云启快评

继PC、手机之后，基于近年来边缘端算力的提升以及边缘硬件的进步，科技界探索下一代终端的脚步一直没有停下。而眼镜作为相对体积更小、更为灵巧的设备，开始承载更多的信息内容和信息体验。

从普及程度而言，目前全球已有数十亿人日常佩戴眼镜，其作为新的智能交互媒介的具备的广市场广泛基础。

在语音、触觉之外，脑机接口等更前沿的交互形态值得期待。

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签