原创 深耕AI的 2024-09-29 19:30 北京
革新仍在继续
2024年即将过去3/4,业内对AI技术发展速度渐存犹疑之时,浪潮的引领者们交出了新答卷。
回看9月,OpenAI、苹果、Meta、字节跳动等科技大厂在模型层和硬件层都激起了不小的水花,MiniMax等新兴力量也有重要进展。
深耕AI领域的云启密切关注行业动态,9月的尾声,我们用这期「Attent!on云启科技手账」梳理本月值得关注的行业动态,并分享我们的观察和思考,和大家一起在信息汪洋中看清方向。
OpenAI发布GPT-o1
新范式能改变什么?
北京时间9月13日凌晨,OpenAI一反常态,在没有前期PR铺陈的情况下发布了新一代大模型系列GPT-o1,被外界称作“草莓”的项目揭开了面纱。
这个从“1”开始命名的新模型是OpenAI首次通过强化学习训练的成果。复杂推理是GPT-o1的核心能力所在,其在数学、编程问题处理中均有突出表现,OpenAI团队称其为该公司迄今推理能力最强的模型产品。这背后是大模型技术路线的一个变化:通过强化学习,o1能自主产生并完善思维链(CoT)。OpenAI创始人Sam Altman在社交媒体X称,Open o1是新范式的开始。
思维链是指把一个问题的解决过程拆分成几个步骤,逐步解决。根据认知学「双过程(dual process)」模型,人脑进行决策时有两种模式:一种是快速、自动、无意识的系统1,另一种是缓慢、深思熟虑、有意识的系统2。思维链的能力是靠近系统2的关键。在此前“predict next token”的训练范式下,GPT只具备系统1的能力。而GPT-o1具备了系统2,这意味其在挖掘存量知识之外,也拥有了产生新知识的能力。
不过,从o1-preview和GPT-4o的测评对比结果来看,在个人协作、文本编辑等语言处理任务中,GPT-4o仍然保持优势,这表明o1在处理日常交流、文本生成等任务中暂不具备优势。
而GPT-o1被业界寄予的另一个期待是,在数据和算力资源“堆量”瓶颈渐显的当下,能否将关乎模型能力提升的scaling law路径由预训练侧迁移至推理侧和强化学习上?答案仍需时间揭晓。
云启快评
GPT-o1的核心变化是大语言模型和强化学习路线的结合,从而实现了思考、推理的大幅提升。在思维链过程中,PRM(Process Reward Model,过程奖励模型)会对LLM每一步给出的解法打分,使其实现最优解。从理论上说,GPT-o1在代码、数学及其他泛逻辑推理等对深度思考有高要求的场景下有更好表现。
但值得关注的是,GPT-o1基准测试选定的数学、编程场景均有明确答案,易于reward model的训练运行。但在更多没有清晰的答案的复杂场景中,reward model也会变得更加复杂,对应的数据收集也会面临更多挑战。
通用性和泛化性是本轮AI浪潮中区别于上一轮的重要特质。目前GPT-o1暂未在推理能力的泛化性上呈现出明确路径,后续迭代还有很大的期望空间。
国产视频生成大模型爆发
Sora还值得期待吗?
Sora“现货”迟迟未发,国内生成式AI玩家们已经在视频生成领域卷到了next level。最近一个月里,MiniMax、通义、豆包、上海AI实验室等大模型团队均推出了视频生成模型。可见,这已成为大模型创业公司和科技大厂都不愿意错过的赛道。
8月30日,云启天使轮被投、大模型MiniMax发布包括“多模态全家桶”,其中的视频生成模型abab-video-1 备受关注。该模型能够根据文本提示生成高分辨率、高帧率的原生视频,其在压缩率、文本响应性和风格多样性上都有较好表现,可根据文字生成6s时长的视频内容,并支持生成文字。
而且值得一提的是,abab-video-1 也是国内为数不多已经开放使用的“现货”,发布当日起,用户即可在海螺官网使用。
另外收获较多关注的是科技大厂的视频生成模型。9月中下旬,阿里的通义万相发布视频生成模型,最长支持5s时长的视频生成,每秒30帧,分辨率720P。字节推出豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,该模型以支持实现自然连贯的动作与多主体复杂交互为特征。
云启快评
2024年以来,AI视频生成在时长、分辨率、一致性等关键维度上都有显著提升。
但视频生成模型的使用成本距离商业化仍有距离。从单卡生成耗时来看,生成7秒视频需耗数十分钟,相应功能嵌入App后亦产生高昂成本。故从降本角度而言,还有不短的路要走。
另在商业模式上,各方也在积极探索电商营销、影视创作、医疗、教育落地场景。但视频工作流对于AI生成素材的真实需求有多大?仍有待从视频生成技术迭代和更多商业实践中验证。
苹果第一代AI手机面世
智能手机的引领者落后了吗?
秋收9月,头部手机品牌也结出了新果实。9月10日,两大头部手机品牌苹果和华为同步“上新” ,分别在软件和硬件层面为市场带来水花。
引领了智能手机时代的苹果,把新推出的iPhone16系列定义为史上第一台为AI设计的手机。但在AI功能整体落地上比较克制,主要的卖点放在了“视觉智能”上——机身侧面新加入的“相机控制”按键同时也是AI读取图片信息、生成相关内容的入口。
此外,AI算法运行速度的提升、升级的相机功能以及AI笔记功能等是此次更新的看点。特别是芯片, 包含基础机型在内的iPhone16全系均采用第二代3nm芯片A18。该芯片具备16核神经网络引擎、机器学习能力翻番。
但在最受期待的软件生态互联互通层面,iPhone16系列没有表现出明显的AI痕迹。事实上,对于手机这个业已成熟的红海品类而言,要在普遍3-4年的用户换新周期找到新的增长曲线,软件或硬件层面的重大革新至关重要。
而拥有完备产品生态的苹果曾被业内视作有这个机会。但此次发布的AI功能来看并不符合预期,甚至有调侃称,声势浩大的发布会只让大家记住了一个相机按键。
相较之下,同日发布的华为高端线产品三折叠屏MateXT在发售之初的市场表现更超出预期。19999元起步的价格并不算低,但开售当日所有型号迅速售罄,黄牛价也水涨船高,直至9月下旬才有所回落。这也再次印证了,在增长乏力的手机市场,折叠屏是为数不多的增长点。
云启快评
面对手机用户漫长的换新周期,以及硬件越来越卷不动的趋势,软件功能的更新依旧是提升用户购买意愿的关键。苹果等头部手机品牌基于AI能力的后续功能更新仍值得期待。
但模型的“分工”需要进一步厘清。哪些功能或者一个功能中的哪些部分应该落在端侧模型实现?哪些功能需要依托于云端模型?明确这个问题,或更有益于在尽可能兼顾手机硬件性能的前提下更好进行AI功能的创新。
Meta发布最贵AR眼镜原型
硬件革新为何从眼镜发力?
打造爆款单品Meta Rayban后,Meta Meta 近日发布首款AR眼镜原型产品Orion。这款仅硬件成本就高达1万美金的AR眼镜,在多个关键指标上都领跑行业。
例如,在对交互体验有决定性影响的视场角(FOV)维度下,Orion采用的光学级碳化硅在保证画质的情况下,提供高达 70 度的视场角(FOV),市面上大多数 AR 眼镜的视场角只有 30-50 度。此外,仅100克的本体重量也打破人们对AR眼镜太大、太沉的印象。
当然,作为一款处在原型阶段的产品,Orion和消费市场之间还有一段距离。但一个难以忽视的现象是,在以AI为代表的底层技术革新契机之下,眼镜正在成为智能硬件领域玩家们发力最多的品类之一。从云启Pre-A项目蜂巢科技等推出的AI音频眼镜,再到以Meta Rayban为代表的具备视频拍摄功能的眼镜,一系列搭载了大模型功能的眼镜正在“攻占”智能硬件热销榜。
由此,眼镜会否成为手机之后的新一代终端,也值得关注。
云启快评
继PC、手机之后,基于近年来边缘端算力的提升以及边缘硬件的进步,科技界探索下一代终端的脚步一直没有停下。而眼镜作为相对体积更小、更为灵巧的设备,开始承载更多的信息内容和信息体验。
从普及程度而言,目前全球已有数十亿人日常佩戴眼镜,其作为新的智能交互媒介的具备的广市场广泛基础。
在语音、触觉之外,脑机接口等更前沿的交互形态值得期待。