云启资本 2024年10月28日
9月AI观察:新模型、新应用,AGI下半场怎么走? | 云启Attent!on科技手账
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

2024年9月,AI领域有诸多新进展。OpenAI发布GPT-o1新范式,国产视频生成大模型爆发,苹果推出第一代AI手机,Meta发布昂贵AR眼镜原型。云启对这些动态进行梳理并分享观察思考。

OpenAI发布的GPT-o1是首次通过强化学习训练的成果,其核心能力是复杂推理,在数学、编程问题处理中有突出表现,通过强化学习能自主产生并完善思维链,但在处理日常交流等任务中暂不具备优势。

国内多个大模型团队推出视频生成模型,在时长、分辨率等关键维度上有显著提升,但使用成本距离商业化仍有距离,商业模式也在积极探索中。

苹果iPhone16系列定义为史上第一台为AI设计的手机,主要卖点在‘视觉智能’,芯片性能提升,但在软件生态互联互通层面未达预期。

Meta发布的AR眼镜原型Orion在视场角、重量等关键指标上领跑行业,眼镜成为智能硬件领域发力较多的品类之一,其作为新一代终端的可能性值得关注。

原创 深耕AI的 2024-09-29 19:30 北京

革新仍在继续

2024年即将过去3/4,业内对AI技术发展速度渐存犹疑之时,浪潮的引领者们交出了新答卷。


回看9月,OpenAI、苹果、Meta、字节跳动等科技大厂在模型层和硬件层都激起了不小的水花,MiniMax等新兴力量也有重要进展。


深耕AI领域的云启密切关注行业动态,9月的尾声,我们用这期「Attent!on云启科技手账」梳理本月值得关注的行业动态,并分享我们的观察和思考和大家一起在信息汪洋中看清方向。


OpenAI发布GPT-o1


新范式能改变什么?


北京时间9月13日凌晨,OpenAI一反常态,在没有前期PR铺陈的情况下发布了新一代大模型系列GPT-o1,被外界称作“草莓”的项目揭开了面纱。


这个从“1”开始命名的新模型是OpenAI首次通过强化学习训练的成果。复杂推理GPT-o1的核心能力所在,其在数学、编程问题处理中均有突出表现,OpenAI团队称其为该公司迄今推理能力最强的模型产品。这背后是大模型技术路线的一个变化:通过强化学习,o1能自主产生并完善思维链(CoT)。OpenAI创始人Sam Altman在社交媒体X称,Open o1是新范式的开始。


思维链是指把一个问题的解决过程拆分成几个步骤,逐步解决。根据认知学「双过程(dual process)」模型,人脑进行决策时有两种模式:一种是快速、自动、无意识的系统1,另一种是缓慢、深思熟虑、有意识的系统2。思维链的能力是靠近系统2的关键。在此前“predict next token”的训练范式下,GPT只具备系统1的能力。而GPT-o1具备了系统2,这意味其在挖掘存量知识之外,也拥有了产生新知识的能力。


不过,从o1-preview和GPT-4o的测评对比结果来看,在个人协作、文本编辑等语言处理任务中,GPT-4o仍然保持优势,这表明o1在处理日常交流、文本生成等任务中暂不具备优势。


而GPT-o1被业界寄予的另一个期待是,在数据和算力资源“堆量”瓶颈渐显的当下,能否将关乎模型能力提升的scaling law路径由预训练侧迁移至推理侧和强化学习上答案仍需时间揭晓。


云启快评



国产视频生成大模型爆发


Sora还值得期待吗?


Sora“现货”迟迟未发,国内生成式AI玩家们已经在视频生成领域卷到了next level。最近一个月里,MiniMax、通义、豆包、上海AI实验室等大模型团队均推出了视频生成模型。可见,这已成为大模型创业公司和科技大厂都不愿意错过的赛道。


8月30日,云启天使轮被投、大模型MiniMax发布包括“多模态全家桶”,其中的视频生成模型abab-video-1 备受关注。该模型能够根据文本提示生成高分辨率、高帧率的原生视频,其在压缩率、文本响应性和风格多样性上都有较好表现,可根据文字生成6s时长的视频内容,并支持生成文字。


而且值得一提的是,abab-video-1 也是国内为数不多已经开放使用的“现货”,发布当日起,用户即可在海螺官网使用。


另外收获较多关注的是科技大厂的视频生成模型。9月中下旬,阿里的通义万相发布视频生成模型,最长支持5s时长的视频生成,每秒30帧,分辨率720P。字节推出豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,该模型以支持实现自然连贯的动作与多主体复杂交互为特征。



云启快评


苹果第一代AI手机面世



智能手机的引领者落后了吗?

秋收9月,头部手机品牌也结出了新果实。9月10日,两大头部手机品牌苹果和华为同步“上新” ,分别在软件和硬件层面为市场带来水花。


引领了智能手机时代的苹果,把新推出的iPhone16系列定义为史上第一台为AI设计的手机。但在AI功能整体落地上比较克制,主要的卖点放在了“视觉智能”上——机身侧面新加入的“相机控制”按键同时也是AI读取图片信息、生成相关内容的入口。


此外,AI算法运行速度的提升、升级的相机功能以及AI笔记功能等是此次更新的看点。特别是芯片, 包含基础机型在内的iPhone16全系均采用第二代3nm芯片A18。该芯片具备16核神经网络引擎、机器学习能力翻番。


但在最受期待的软件生态互联互通层面,iPhone16系列没有表现出明显的AI痕迹。事实上,对于手机这个业已成熟的红海品类而言,要在普遍3-4年的用户换新周期找到新的增长曲线,软件或硬件层面的重大革新至关重要。


而拥有完备产品生态的苹果曾被业内视作有这个机会。但此次发布的AI功能来看并不符合预期,甚至有调侃称,声势浩大的发布会只让大家记住了一个相机按键。


相较之下,同日发布的华为高端线产品三折叠屏MateXT在发售之初的市场表现更超出预期。19999元起步的价格并不算低,但开售当日所有型号迅速售罄,黄牛价也水涨船高,直至9月下旬才有所回落。这也再次印证了,在增长乏力的手机市场,折叠屏是为数不多的增长点。


云启快评


Meta发布最贵AR眼镜原型



硬件革新为何从眼镜发力?

打造爆款单品Meta Rayban后,Meta  Meta 近日发布首款AR眼镜原型产品Orion。这款仅硬件成本就高达1万美金的AR眼镜,在多个关键指标上都领跑行业。


例如,在对交互体验有决定性影响的视场角(FOV)维度下,Orion采用的光学级碳化硅在保证画质的情况下,提供高达 70 度的视场角(FOV),市面上大多数 AR 眼镜的视场角只有 30-50 度。此外,仅100克的本体重量也打破人们对AR眼镜太大、太沉的印象。


当然,作为一款处在原型阶段的产品,Orion和消费市场之间还有一段距离。但一个难以忽视的现象是,在以AI为代表的底层技术革新契机之下,眼镜正在成为智能硬件领域玩家们发力最多的品类之一。从云启Pre-A项目蜂巢科技等推出的AI音频眼镜,再到以Meta Rayban为代表的具备视频拍摄功能的眼镜,一系列搭载了大模型功能的眼镜正在“攻占”智能硬件热销榜。


由此,眼镜会否成为手机之后的新一代终端,也值得关注。



云启快评




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 视频生成模型 苹果AI手机 Meta AR眼镜
相关文章