36氪 - 科技频道 9小时前
有嘴就行?Siri 又画大饼了,明年让你解放双手用 iPhone……
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果正致力于通过强化Siri和App Intents功能,实现iPhone的纯语音交互。虽然“智能Siri”的推出有所推迟,但通过App Intents框架,用户未来有望仅凭语音指令,即可完成跨应用操作,如编辑照片并分享至社交媒体,或创建日程等。这一技术不仅能提升iPhone的用户体验,更有望应用于Apple Watch、HomePod及AR设备等更多苹果产品,构建强大的软硬件结合交互系统。

📱 苹果正积极探索基于Siri的纯语音人机交互方案,旨在让用户能够完全通过语音遥控iPhone。这一设想的核心在于加强iOS的App Intents功能,为App内部功能提供系统级的快捷调用入口。

💡 App Intents是一个面向开发者,用于展示App“意图”的系统框架,它允许用户在不打开App的情况下,通过Siri、聚焦搜索或捷径等系统功能,快速调用App的特定操作。目前,捷径是利用App Intents最普遍的方式。

🚀 苹果的AI Siri若要实现更复杂的自动化操作,关键在于未来对App Intents的“史诗级加强”。这可能包括让系统直接读取App功能列表,以及利用Apple Intelligence的语音模型将自然语言指令转化为一系列App Intents调用。

🗓️ 预计最早在2026年春季,苹果可能推出集成了AI Siri和增强版App Intents的组合,届时用户可实现如“将昨晚照片裁剪成正方形并发送到微信,同时创建相同日程”等无需动手操作的复杂任务。

🌐 这一纯语音交互方案的潜力不仅限于iPhone,更有望在Apple Watch、HomePod、智能家居设备以及Vision Pro等AR设备上得到广泛应用,成为苹果软硬件结合能力的新体现,并惠及无障碍用户和新产品形态。

Hey Siri 帮我上班 

iPhone 为智能手机领域带来的革命之一,就是多点触控屏幕。「触控」也在此后的十八年里,逐渐成为了人们与电子设备交互的主要方式之一。 

但苹果觉得:触控还不够。 

事实上,我们已经在 Vision Pro 上见到了基于视觉识别的纯手势交互,几乎是目前 AR 设备中最无感的一种方案。 

而近期的一些新证据表明,苹果也在尝试另一种基于 Siri 的 纯语音的人机交互方案 。 

图片使用 Gemini 生成,因为 Image Playground 用不了 

就在昨日,社苹果专家 Mark Gurman 在一篇最新的预测中指出:推迟到 26 年的 AI Siri,有可能通过借助加强 App Intents 的方式,间接实现让用户完全以语音遥控的方式操作 iPhone 。 

这是一块苹果在 2024 年 WWDC 上就已经画过的大饼了。在一则饱受虚假宣传指责的广告中,苹果展示了女演员 Bella Ramsey 向 Siri 提问、Siri 跨应用收集信息并给出回答的场景: 

广告中,Bella 向 Siri 提问一项活动的参与者名字,Siri 通过快速调用日历做出了回答|YouTube @QuirkyFilms 

由于 Apple Intelligence 始终无法实现这样的功能,这则广告片早在年初就已被苹果下架。至于「更智能的 Siri 」,也因为 Siri 团队内部架构双轨(老架构用于老功能,新的内外部大模型用于 agent 功能)的调整,推迟到了 2026 年。 

Marc Gurman 的看法是:新架构 Siri 反复推迟这件事,本身并不是什么大问题,比起磕磕绊绊的 Siri,更值得关注的在于—— 

新架构 Siri 如果想要实现苹果在两次 WWDC 与发布会上画的那些大饼,iOS 的 App Intents 功能必须在未来得到史诗级加强。

图|Fast Company 

你或许没有听说过 App Intents 这个名字,这并不奇怪,因为它不是某个单独的功能,而是一个面向苹果开发者的系统功能框架,于 2022 年苹果在 iOS 16 中首次推出 App Intents,取代了早前的 SiriKit Intents。 

图|Apple Developers 

而 App Intents 的功能也如同它的名字一样,主要用于展示一款 app 的「意图」。 

就拿 iOS 的聚焦搜索(Spotlight)来说,除了直接查找 app 之外,我们其实还可以直接在这里输入一些功能提示词,比如「创建」或者「扫一扫」,系统就会自动拉起一些 app 内部的功能入口以供选择: 

而这也很直观的展示了 App Intents 的基本作用——给原本处在 app 内部的各种功能,创建一条「快捷通道」,并且将这些快捷通道的入口与 iOS 系统级功能(比如 Siri、聚焦搜索、捷径等等)整合,让用户可以 不打开 app 就快速调用 。 

图|Apple Developers 

而这也正是 Marc Gurman 所预测的、新的 AI Siri 在未来能够胜任更多复杂操作的基石。 

无独有偶的是,类似的功能快捷入口并非苹果独享,华为的 HarmonyOS 中也有一个类似的服务叫做 Intents Kit,负责连接系统入口与 app 或元服务内部的功能: 

图|华为开发者联盟 

不过目前由于苹果的宣传力度和入口限制,能够在 iOS 中调用 App Intents 去执行操作的就只有上面提到的三大件—— Siri、聚焦搜索,以及捷径。 

考虑到 Siri 过于拉胯、聚焦搜索用户基数不高,因此使用频率最高的就是通过捷径调用了。现在各种快速记账、裁剪照片添加水印、将前一天的照片统一发送到微信文件传输之类的捷径,本质上都是经由 App Intents 在发挥作用。 

通过聚焦搜索直接跳转执行支付宝内部的扫码功能 

而未来 AI Siri 领衔的自动化操作,参考目前捷径对于 App Intents 的调用方式,爱范儿认为将会是一个很简单的「两步走」逻辑: 

1. 

加强 App Intents 能够直接调用的 app 功能。目前的 App Intents 框架需要开发者主动编写,能够覆盖的 app 数量十分有限,苹果后续可能通过新建 API 的方式让系统直接读取 app 功能列表,扩大 App Intents 的调用范围。 

2. 

Apple Intelligence 的语音模型可以帮助 Siri 更好的拆分和理解用户的语音指令,并且利用 iPhone 上面的端侧模型将自然语言指令转换为依次调用 App Intents 的组合,从而实现复杂步骤的自动操作。 

Marc Gurman 预测苹果最早可能会在 2026 年的春季发布会上推出这套新 AI Siri + App Intents 的组合,届时可以实现的操作可能类似于「嘿 Siri,把昨晚吃饭拍的照片全部裁成正方形,发到 XXX 的微信,在下周六创建一个一样的日程」,并且全程不需要动手点 iPhone 。 

图|Lifehacker 

只不过在那之前,这套新的语音操作方式还需要经过长期的测试,尤其是针对一些高风险的场景(比如支付宝收付款、或者联网控制医疗器械等等)需要更加严格的 Siri 模型控制,在明年春季再遭推迟也不是不可能。 

而从产品的角度看,这样一套完全基于语音的操作方式,虽然有可能最先落地在 iPhone 上,但未来能够发光发热的场景肯定不止智能手机。 

反而是 Apple Watch、HomePod,甚至传闻中的智能家居中控屏和桌面机器人,以及类似 Vision Pro 的 AR 设备,会成为纯 Siri 语音交互的主要受益者。 

换句话说,这套 AI Siri 搭配增强版 App Intents 的「组合拳」,是一套上利无障碍用户、下利新产品形态的全新交互系统,非常符合我们以往对于苹果强大的软硬件结合能力的想象。 

而苹果现在唯一需要做的,就是如期把它交付出来。 

本文来自微信公众号 “爱范儿”(ID:ifanr),作者:马扶摇 ,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Siri App Intents 语音交互 Apple Intelligence 人机交互
相关文章