云启资本 2024年10月28日
蜂巢科技夏勇峰:AI眼镜是最理想的智能硬件形态吗?| 云启实干派
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

蜂巢科技创始人&CEO夏勇峰在接受极客公园创始人&总裁张鹏的采访中,谈及了AI眼镜的未来发展趋势,以及蜂巢科技如何通过创新音频眼镜产品,在“百镜大战”来临前抢占先机。夏勇峰认为,AR硬件在短期内难以成为大众消费品,但AI音频眼镜凭借其舒适的佩戴体验和长使用时长,可以成为用户在手机和笔记本使用时间之外的最佳选择。他强调,AI音频眼镜的核心在于利用AI技术,更好地理解用户的意图,并提供个性化的服务,例如AI通知播报功能,帮助用户筛选信息,提高效率。未来,蜂巢科技将推出“界环爱听”功能,通过AI agent生成个性化的短音频内容,满足用户对不同领域内容的需求。

🤔 **AI 音频眼镜的优势:** 蜂巢科技创始人夏勇峰认为,AI 音频眼镜相较于其他 AI 硬件,拥有更长的使用时长,能够更好地融入用户的生活,成为用户在手机和笔记本使用时间之外的最佳选择。例如,AI 通知播报功能可以帮助用户筛选信息,提高效率,同时避免被信息过度打扰。

👓 **产品设计理念:** 蜂巢科技在设计 AI 音频眼镜时,坚持了“最好看、最好用、最聪明”的设计理念,希望打造一款舒适、美观且功能强大的产品。他们通过提供定制镜片服务,满足用户对不同眼镜需求,并不断优化产品设计,提高用户体验。

🤖 **AI 技术的应用:** 蜂巢科技的 AI 音频眼镜利用 AI 技术,将语音助手升级为更智能的交互界面,能够理解用户的意图,并根据需求分配不同的 AI 代理(agent)执行任务。例如,用户可以语音指令 AI 音频眼镜,获取法国媒体对奥运会的评价总结,或者筛选微信群信息,避免打扰。

🎧 **未来发展方向:** 蜂巢科技计划推出“界环爱听”功能,通过 AI agent 生成个性化的短音频内容,满足用户对不同领域内容的需求。这些 AI agent 可以像播客一样,为用户提供各种主题的音频内容,例如历史、新闻、笑话等。用户可以根据自己的兴趣选择内容,并通过滑动操作筛选内容,打造个性化的音频体验。

Founder Park 2024-08-16 19:15 北京

起跑在“百镜大战”来临前


销量破百万的Meta雷朋眼镜让AI眼镜成为2024年最热门的智能硬件品类之一。苹果、Meta等近期释出的智能眼镜计划又在二级市场掀起AI眼镜概念的火热行情。而在股市起落之外,创业者们在定义和创造在AI眼镜的路上耕耘已久。


近日,云启Pre-A轮项目、小米生态链企业「蜂巢科技」推出新品「界环AI音频眼镜」。成立之初即专注在头戴智能硬件研发科技创新,蜂巢科技此次交出了一份拥抱AI的答卷。公司创始人&CEO夏勇峰说,期待音频眼镜能够以每年两倍、三倍的销量的增速去替代传统眼镜。


当然,AI硬件的创新道路并非坦途。围绕创业历程、AI眼镜和智能硬件创新的挑战与未来,夏勇峰与科技媒体极客公园创始人&总裁张鹏进行了一场对话。本期「云启实干派」与你分享此次对话实录。

本文授权转载自“Founder Park”

对话:张鹏

原标题:《张鹏对话夏勇峰:使用时长超过5小时的AI硬件,才能留在牌桌上》



01 短时间内,

AR硬件很难变成大众消费品



张鹏:先讲一讲,蜂巢科技是怎么诞生的,包括你自己过去的一些经历吧。


夏勇峰:从我作为极客公园的一份子开始聊起吧。早些年,我是极客公园最早期的创始员工之一,后来为了圆自己做硬件的梦,在张鹏的同意下,我受邀加入了小米。


在小米,我最开始是做小米路由器,后来加入了小米生态链的组建。那时候,小米生态链刚刚起步,只有三个员工,包括老板在内。小米生态链的成立时间是以我14年1月8日到岗的时间为准的。我参与了小米手环、扫地机器人等一系列产品的发布,还参与创办了米家品牌。刚开始的米家品牌的各种发布会其实都是我来做的。


到了2018年,小米生态链已经投了70多家公司,每年做300多个产品。那个时候,我感觉我离当初做硬件产品经理的想法越来越远了,我的日常工作已经变成了管理工作,离真正做产品的工作已经有点远了。


张鹏知道我是一个相对比较理想主义的人,比如早年间我只想当记者,不想当编辑,要坚持在一线。所以,18年我跟雷总沟通之后,就离开生态链加入了小米手机部,开始做手机。做到2020年,我就觉得我给小米带来的价值也差不多了,该去实现一些自己的梦想了。


于是,2020年我创办了蜂巢科技。我们有一个新的定义,就是头戴式可穿戴智能硬件,我想做这个方向的产品。可能在之后十年、二十年、三十年,我们所有的产品都会围绕着这个方向来做。后来我们先后推出了眼镜、相机、米家音频眼镜等产品,包括今天刚刚发布的「界环」AI音频眼镜,这是我们的一系列的产品。


张鹏:2020 年创立蜂巢时,做的第一代产品是一个眼睛相机,第二代是一个蓝牙音频眼镜,你现在在做「界环」这个产品,这之间的思路看起来也有一些变化。能不能复盘一下,这三四年你是怎么走过来的?


夏勇峰:3 年时间很短,但对我来说,真的特别漫长。


我们一开始想做头戴式智能硬件,是因为当时做完手机后,发现大趋势是手机每年的全球销量都在下滑。手机质量越来越好,性能也完全足够了,所以大家的手机更换频率比以前降低了。当时我们和很多手机重要技术的合作伙伴聊,包括做屏幕的、做芯片的、做相机的,很多人都呈现出一种长期焦虑感,产业大到一定的程度之后,其实找不到新的落点。


当时我觉得,可能有手机技术溢出的机会。除了汽车,手机就应该是人类硬件的皇冠上的明珠,还带来了一系列技术的持续提升,比如说低功耗、高性能、结构堆叠等等。


我就开始思考,手机技术溢出之后,有什么新的硬件产品可以承载这个趋势。


直观上来讲,如果技术持续发展,目前手持设备跟数字世界与真实世界交互的效果还不够好。长期交互,应该就是五感,这些五感通过某个硬件,比如戒指,直接去跟现实世界交互就好了,手就该干嘛干嘛。所以我觉得未来,必定有一个头部的设备可能会取代手机,成为随身最重要的智能终端头戴式智能硬件里会涌现非常多的机会,我就把它设为了我们公司一个超长期的目标。


当时正好元宇宙处于起起落落的新的一波,自然而然就想把AR作为我的第一阶段,现在听起来有一点狂妄,因为AR到现在其实还没有非常好的产品。但当时我比较乐观,通过各种渠道和信息,知道好些大厂在研究AR硬件,有些大厂在立项,一些代工厂也在做各种各样的尝试。所以当时预计5-10年,AR有可能会成为主流硬件。


当时的技术还不够成熟,就先做了一个眼镜相机,它是我认为头戴的最小可运行模型。有一个近眼显示的最小屏幕,配置了足够好的相机。我做了一个相对比较完善的一体机体系,可以联网,同时还能够支持开发者在上面充分开发。系统基于安卓,但是还是有很多的调整。


这款眼镜相机确实给一些人带来了价值,但是这个产品有一个很大的问题,我觉得未来的AR眼镜短期内都无法解决,就是用户所支付的代价远远大于他们能获得的回报。可能只有又有钱又向往科技,愿意为信仰充值的人,才会成为早期用户。


基本上在22年左右,我就意识到这一点,AR很难在相对比较短的时间内,变成一个大众的电子消费品。


张鹏:今天我依然认为长期来看 AR 这件事肯定有价值,但这个「长期」究竟有多长,确实是个值得探讨的问题。


你刚才提到了一个关键点,认为现在如果要做一款真正的 AR 设备,还是不太成熟。但随着 AI 的兴起,很多人认为 AR 可能又重新热起来了。但你今天的这款眼镜,既没有摄像头,也没有屏幕,是基于音频接入 AI 的。为什么不在产品里加屏幕呢?AR 的路线为什么你不坚持走下去?在过去两年里,有什么因素影响了你的决策?


夏勇峰:我在发布会上也提到了,有些非常酷的智能眼镜在传统眼镜的基础上迈出了巨大的步伐。但我认为,哪怕是一小步,也可能带来眼镜行业的革命性变化。如果这一步走得不够稳健,那么后面的大步可能在短期内也不会出现。


比如说,我们提到了 Ray-Ban Meta,这是一款相当不错的墨镜。我们也是希望努力做出一款优秀的眼镜。你可以看到,我们的产品与传统眼镜行业非常接近。正是这种接近,满足了大家的基本需求,为我们提供了一个相对较大的市场基础。


如果在这个时候,我们急于推出一个过于创新的产品,反而可能会破坏传统眼镜的基本需求。比如,佩戴可能不够舒适,或者配近视镜片不够方便,这样我们就需要去创造全新的需求,然后告诉大家,尽管眼镜的基本需求没有得到很好的满足,但我们能满足其他需求。事实上,至少在目前这个阶段,我还没有发现真正能够成立的需求。


张鹏:我挺认同你的观点,戴这个眼镜,我没有付出太大的代价。但你不加显示屏这件事,是一个挺有意思的选择。你的一代产品拍照眼镜,还是有屏幕的,这次不加屏幕背后的逻辑是什么?


夏勇峰:选择不加屏幕的核心逻辑是,加了屏幕能带来什么实际用途?首先单色 Micro LED 技术已经非常成熟了,但关键是,它能用来做什么?打个比方,如果你前面加了一个显示屏幕,价格贵了 1500 到 2000 块钱,你觉得你用它来做什么,能够让你心甘情愿地多掏这笔钱?


张鹏:现在市场上的验证是,大家拿它当显示屏,比如看视频等等,其实就是个大屏。


夏勇峰:大屏单色显示是不够的,你提到的那个更贵,1500块钱搞不定。现在大屏 Micro LED技术还没有完全成熟,我们现在所有的商务大屏,市面上大部分知名公司用的是Birdbath的方案,那个方案成本相对可控。


最终的AR设备需要的其实是一个非常好的 Micro LED 技术加上衍射光波导的镜片,但那个技术还不成熟。去年有出 640x480 分辨率的,据说刷抖音很爽,相当于一个小电视。到明年,我估计它可以提升到 1080P,但保守估计,成本至少要提高两倍以上。即便如此,我觉得它也不能很好地替代手机或笔记本。


张鹏:核心问题是,今天我付出了很高的成本在眼镜前加了个屏幕,但它依旧不能全面替代手机或笔记本,所以这个时候去抢占它们的屏幕使用场景并不明智。所以这个决策并不可行,对吧?


夏勇峰:嗯,它只能作为一个笔记本或手机的扩展屏,就像个配件。


张鹏:如果强行让这个人自此不再用笔记本和手机,用户要付出的代价就会比较大。所以你今天反而从之前AR的路线走向了音频眼镜。



02 Ray-Ban Meta的核心,

是做好了一款墨镜



张鹏:我其实挺好奇你看到大模型领域出现后,当时是个什么心情?是怎么找到跟这个技术浪潮结合点的?


夏勇峰:首先我觉得产品越接近传统眼镜,它就越能替代它们。这会带来明显的好处,因为用户的基本需求得到满足,产品佩戴时间就会非常长。如果你能做出一款能替代传统墨镜的眼镜,基本上你就锚定了人们每一天戴墨镜的时间。如果你的产品特别接近传统眼镜,比如近视镜,那么产品的使用时间就会接近传统眼镜的使用时间。


我们的后台数据显示,用户使用我们产品的时间很长,前25%的用户每天佩戴超过 10个小时,每人每天媒体的平均使用时长超过 7 个小时。这是一个非常长的时间。


AI 来了之后,如果用户在手机或笔记本旁边,他们肯定会使用手机和电脑上的 AI,用来做 PPT、写稿子、加字幕、外文翻译等等。因为用户会直接在现有硬件上使用 AI,所以我们开发新的 AI 硬件,要抓住手机和笔记本使用时间之外的时间。开发的硬件要能随身在用户旁边,并且与用户进行交互。


张鹏:你的意思是,今天不应该去尝试抢占手机和笔记本的使用时间,那是不可能的。相反,我们应该在它们之外找到对用户有价值的事情,并且这种价值足以让用户愿意长时间佩戴。比如VR眼镜就不行,通常只在看电影时佩戴,之后我们就摘下来了。所以这个产品是推理出来的吗?


夏勇峰那也不是。最初我们是先开发了音频眼镜,后来 AI 技术兴起,我们就发现 AI 非常适合这种产品,特别是在用户不在使用手机和笔记本的时候,比如开车、骑行或跑步等场景,通过音频眼镜使用 AI 是一种更自然的方式。如果他们在这些时刻需要AI,可能可供选择的硬件很少。除了眼镜,我认为还有两个设备非常适合集成AI,那就是汽车,还有手表或高续航的手环。在特殊场景下,人们无法使用手机或笔记本,这些设备就能发挥作用。


张鹏:手环和手表传递价值的方式可能只能是振动,发出声音感觉不太合理。眼镜的位置我觉得比较好,因为它可以耳语,这就很合理。


一个大家可能都很关心的问题是,现在很多人觉得 Ray-Ban Meta 眼镜不错,前面有两个大大的摄像头。之前讨论了为什么不加屏幕,那你觉得未来你的眼镜会加摄像头吗?这一代没有摄像头,未来会有吗?你是怎么考虑的?


夏勇峰:我也知道现在市面上其实有很多人在做类似的,无意冒犯大家,我讲讲纯个人观点。我认为 Ray-Ban Meta 的核心是做好了一款墨镜。


它是一个与人的社交距离较远的设备、在一些地广人稀的地方,人的社交距离远,你在墨镜上加一个摄像头,不管用来做什么,至少是合理的。在远处人们带一个摄像头不会对别人构成冒犯,但如果在人口密集的地方,每天带着配备摄像头的东西,从早带到晚。我试过,感觉非常尴尬,给别人带来的社交压力,会回到我自己身上。


张鹏:从别人的眼神里你能观察到,他们觉得这个东西有点可怕。


夏勇峰:对,所以我认为加摄像头的AI眼镜,和我们现在做的AI音频眼镜本质上是两个完全不同的产品。


摄像头AI眼镜更适合在一些短时场景里给用户提供更高的价值,但具体能提供多少,还得看后续的发展。它替代墨镜还可以,但大部分中国人其实是不戴墨镜的,老外才带。这不是武断,是从百分比来看的,中国的近视人群相对较多,如果他们要戴墨镜,要么就是戴隐形,要么就是配一个带度数的墨镜,或者戴一个套镜,但总体来讲,墨镜的总量百分比远低于欧美。在美国很多地方墨镜是刚需,是每个人必须要买的东西,在这个时候 AI 眼镜替代墨镜,群众基础会比较好一些。


墨镜天然适合加摄像头,AI 又需要摄像头,这个故事就闭环了。


张鹏:如果按照这个逻辑来看,你今天选择的道路并不是从墨镜的角度出发,而是我们日常佩戴的眼镜,对吧?它本质上就是我们日常所佩戴的镜框,只是换成了近视眼镜,这样确实能有效解决问题。


既然我们谈到了 AI,AI 领域现在大家都很关注,从去年开始,AI 已经从纯语言模型发展到了更加多模态的阶段。AI 的演进意味着如果你有摄像头,你就具备了多模态的能力。你可以通过视觉去理解很多东西,进而帮助解决很多问题,比如看到某个东西能翻译成英文,或者识别出这是什么,这本质上就像是摄像头变成了传感器。所以产品如果加上摄像头,一个明显的、用于拍摄视频的摄像头,这已经变成了另一个品类。


你现在的产品是智能音频眼镜,如果未来要运用AI的智能,实现多模态,增加传感器是否必要?在什么情况下会考虑增加?


夏勇峰我确实考虑过这样的问题,甚至和一些大公司探讨过制作 demo 的可能性。我认为可能有两种方式。


第一种方式是,摄像头前面的镜片通常是玻璃的,你可以把它做成电子变色的,由 AI 控制何时需要开启。平时它就像是「闭着眼睛」,需要时就「睁开眼睛」,这样或许能缓解一些隐私问题。另一种情况是,你带一个摄像头,AI 能分辨图像,但不能拍照,也不强调画质,并且要让所有人都知道这不是用来拍照的,而是一个传感器。因为 AI 需要的分辨率并不高,600x400 的分辨率基本上已经够用了,不需要像 Ray-Ban Meta 那样高分辨率的摄像头和高级芯片,以及加载那么多拍照算法。


张鹏:所以,如果从智能的角度来看,确实有必要加入有效的传感器,但这一代产品还没有加。我相信你肯定在这方面做了技术储备,刚才提到的加「眼皮」,或者明确告诉大家这是传感器,没有拍摄功能,只是识别,才能解决隐私问题。我觉得很有道理。


夏勇峰需要考虑在人群密度较高的场景下,能否正常无障碍地使用它,这可能和它本身实现的功能同等重要。


张鹏:那么,如果这种传感器加入之后,这副眼镜会实现一些超越我们想象的能力吗?


夏勇峰:可以稍微透露一点。与其说它能实现什么具体功能,不如说它能让AI更加了解人的意图。我们之前讨论过,未来可能是AI接管一切,你只需要做自己,因为AI机器非常聪明,当你做自己的时候,AI基本上就能知道你想要做什么,你的意图是什么。它可能会取代一些现有的图形用户界面(GUI)的功能。我认为它能够帮助机器更好地识别人的意图。


张鹏:所以,它实际上是一种用于识别意图的传感器,我们不应该将其理解为传统意义上的摄像头拍摄功能。这一点可能是核心。



03 先做好一款好用的音频眼镜,

然后加入AI



张鹏:加入了AI之后,这一代产品有哪些特点,会带来与之前音频眼镜不同的体验?


夏勇我们其实设定了目标。第一是要做世界上最好看的眼镜,颜值即正义。第二,我们要做世界上用起来最舒服的眼镜。第三,我们要做这个世界上最聪明的眼镜


第一个目标:最好看。我们的眼镜像传统眼镜一样有很多框型,8框14色,对人颜值提升还是蛮有用的。你戴眼镜出去,给人的感觉还是挺好的。


第二个目标:最好用。我们已经开发了三代音频眼镜,这一代在实际使用体验、人体工程学设计以及镜框方面都有明显的提升,最轻的只有30.7克,整体佩戴舒适度都有显著提高。为了制作优质的眼镜,我们还提供定制镜片服务,性价比相当不错。如果你不确定要购买什么样的镜片,可以直接在我们这里购买眼镜并配备镜片,性价比还可以的。


我们的变色镜片特别好,在室内可以防蓝光,在室外则自动变为墨镜,能防紫外线,当然也相对比较贵一点。现在镜片已经正式纳入了我们的眼镜业务,变成了一个正经的事儿,会统一给大家提供服务。


第三块最聪明,其实就是说AI。


张鹏:讲讲AI吧,你的AI音频眼镜叫智能眼镜,这个智能体现在哪里?


夏勇峰我们的AI,你可以将其简单理解为是语音助手的升级版。从ChatGPT开始,到现在我们的国产AI 模型,在大众端还没有出现非常核心、为大众带来显著价值的应用,但它拥有无限的可能性,基本上能够实现从文本到文本,语音到语音的转换,这是AI从1.0到现在能够为大家带来的功能。


对我们来说,什么是语音助手的升级版呢?


当你向它提出一个问题后,它能够识别出你的意图和不同需求,并将这些需求分配给不同的 AI 代理(agent)去执行。执行完毕后,再汇总回答给你。我们称这些不同的 AI代理为「AI小人」,它们在你的眼镜后面不停地为你工作。比如你说:「明天我想听听法国媒体对奥运会的评价,请在明天晚上8点前给我一个总结。」听到的AI 小人就会告诉工作小人:「你明天要产出这个内容。」第二天晚上8点,工作小人会把总结交给负责与你对话的小人,然后这个小人会念给你听。


与你对话的小人,我们称之为VUI,即基于语音的用户界面。当基于语音的交互因为 AI能产生越来越多的价值时,它就会变成一个交互界面。这是利用 AI 核心目标的一部分,们希望在跨平台上让用户拥有一个统一的 VUI 体验。


张鹏:我尝试理解一下,如果要说这副眼镜带来的根本性改变,那就是通过它,你能够调用无所不能的 AI,围绕你的目标去解决问题,通过这个眼镜用语音的方式给你完成合适的任务。


背后的技术是大模型,也就是你用语音就可以调动 AI,这是交互的核心节点。我们不用像原来拿着手机一样,跟手机发消息,我觉得这个是关键的改变。


夏勇峰:如果看背后的架构,我们是通过眼镜以及与眼镜长期连接的手机 APP 进行第一道处理,处理完后,再将用户的日常生活习惯与服务器上的需求进行匹配。


在我们服务器上,有预设的prompt,还有AI Hub,它连接着许多服务,当然还有很多AI agent。我们会整体打包,指导它找到适合处理这个事情的大模型,大模型完成工作后结果返回服务器,再通过手机端返回到眼镜上,基本上的工作逻辑是这样的。


张鹏:有人说这类似第一代小爱,现在用上大模型,有什么优点?


夏勇峰:关键是,第一代小爱发布的时候,根本没有大模型啊。


张鹏:小爱其实并不具备今天我们说的这种无所不能的能力,对吧?


夏勇峰:举个例子,我们有一个功能叫做AI通知播报。比如我在飞书上收到了同事发来的图片,如果是传统的通知播报,它没有任何能力告诉你具体内容,你只能掏出手机来查看飞书。


现在有了AI通知播报,我还没掏出手机,就听到信息:「xxx刚才给你发了一张图片,可能需要你确认。」这就是AI通知播报的一个例子。当然,我们同事也在考虑,是否加入图像识别,但目前我们还没打算做。


还有一个例子,这是我真实遇到的情况,有时候你会突然被拉进一个微信群,在设置免打扰之前,这个群会一直发出通知声。如果你戴了这个眼镜,你不必立刻查看并回应,甚至不用掏出手机,AI会先自动给你一个小结。如果你发现确实与你相关,再进行回复。AI为你提供了一层筛选,确保你不会错过重要信息,同时也不会被信息过度打扰。大家现在不得不经常查看手机,一看到微信通知就得解锁手机。使用AI后,这样的动作大大减少了。


有些人可能认为这不是刚需,但根据我们之前的数据统计,打开通知播报的用户比例非常高。我们之前有近10万用户,超过36%的人开启了通知播报,即便通知播报有非常多垃圾信息在骚扰他,他还是打开了。这个确实是一个蛮高频的需求。


张鹏:我在发布之前用了测试版,一上来就发现有通知播报,就打开了微信和飞书这两个 APP 的通知播报。我发现它不是简单地把那个通知给我念一遍,其实会做一下概括,我后来发现这一点很好。


这个功能,反而让我更及时地收到信息,以前我是隔一个小时打开手机看看有什么事,通知功能对我没用,因为我手机都放不放在边上,我也不看,但现在可能有一些比较紧急的事,我可以快速响应。


经常有人给我发对话的截图,发图是想给我一些背景信息,让我看看他们是怎么聊的。未来要是能帮我把图识别了,直接帮我总结一下,我就不用看截图里的对话了,那我会非常期待。


夏勇峰:不过识别图片会有新的问题,它属于多模态识别,我们还在讨论,还没有确定要加这个。但是 AI 通知播报我们已经优化了两个月了,现在可用性其实蛮高的。


张鹏:如果让我推荐一个功能,肯定也是通知播报。我用了大概一周吧,感觉是,在这种比较智能的 summary 播报中,我能明显感觉到有 AI 在里面起作用。感觉未来我甚至可以让它去给我做简报,把我要看的内容都先概括一下。


张鹏:AI 通知播报这个功能是我现在用得比较多的,可能未来还会有新的功能。有没有新功能的可能性可以给我们透露一下?


夏勇峰:年底我们会推出「界环爱听」,AI cast 这个功能。因为我们有很多的用户都是重度的耳机用户,或者说重度的音频内容消费用户。举个例子,我们的用户里听小宇宙和喜马拉雅的用户占比是非常高的,远高于互联网的平均占比,他们是重度播客用户,经常会一边听播客,一边干其他的事。


我们做了一款短音频的应用。但是它和短视频应用最大的区别就是,它不需要那么多的up主,不需要那么多的真人,每一个up主都是一个 AI 小人儿。比如说,有一个 AI 小人儿专门给你讲东周的历史,有一个小人专门给你讲三国,有个小人专门给你讲笑话,也有小人专门给你去总结新闻,像这样的会非常多,我们会关注到播客里有哪些内容是比较受欢迎的。


张鹏:就是用 agent 替代了所谓的 up 主,对吧?


夏勇峰:对,它跟短视频的区别在于,我们的短音频的时间会稍微长一些。生成内容之后有一个 AI 小人儿当内容审核官,质量差的打回去改,质量好的就放出来。


刚开始的数量可能会少一点,目前我试用的这个版本每天大概只有 20 个左右的短音频,但是未来它会有很多。用户使用它就像听播客一样,不感兴趣,往后滑,它就跳到下一个,觉得又不感兴趣,再往下滑,当你滑得足够快,你就会发现你讨厌的内容渐渐不会出现在你的「界环爱听」里面了,然后它逐渐就会知道应该给你放什么。这是我们会在今年冬天上线的一个功能。


张鹏:有人问,是觉得 up 主还不够多,还是 AI 比人强?我说一下我的理解,这些 agent 本质上是要更无限贴合用户想要的东西,倒不是说 up 主不够,也可以说是,完全跟你贴合的 up 主是不够的,但不一定说是 AI 比人强。因为 up 主再多,也是你在寻找能够匹配你需求的 up 主,而且也不是真人 up 主的每个作品你都觉得特别好,人家也不会只为你创造内容,但这个 AI 是只为你创造内容。


所以我觉得,理论上如果这些平台有 API,你其实也可以直接去听那个 up 主的内容,up 主内容也是可以接进来。但是如果觉得不够匹配,AI 可以再围绕你的需求去生成内容,那这个其实就叫真正的大规模个性化。


夏勇峰:如果觉得这个东西不好,还可以听小宇宙,我们就当一个音频眼镜用,你如果觉得这个功能好,你就会用。我们逐渐会把它越做越好的,因为毕竟我只需要 AI 小人,我不需要 UGC。



04 不是接了API就叫

AI智能硬件



张鹏:真的把大模型塞到硬件里去,还是要做一些基础功能的,比如怎么搭架构、怎么用。AI 语音播报这个功能的背后,架构怎么搭的,是端侧有模型吗?还是都是在云端?为什么不直接调小爱大模型?


夏勇峰我们现在眼镜没有端侧大模型,其实也没有必要。一定程度上我们参考了 Meta的一些做法,就是通过眼镜加手机的 App 端,一起去做第一道处理。如果未来手机开放了一些大模型语音的能力,包括分享、通知的权限、甚至NPU,可以让我们在上面跑一个小模型的话,肯定会部署端侧的。为了加快本地的处理速度,实现更多的功能。


但现在还没有,现在我们是通过App直连到服务器。首先在App端做了所有基于语音的一些分析,包括TTS、 ASR、音色这些。在服务器端,首先跟你对话的Agent,性格、情绪都是用户自己设定的。第二是RAG,第三是AI Hub,我们连了十几个大模型。我们还有一个AI的长期记忆的功能,也就是有更长时间的历史信息的上下文,由此来更准确地判断你的意图。


把这些实现了之后,我们还做了内容质量审核 AI,提交给用户的内容质量过关了才能发给用户。同时,我们在服务器端还做了关于大模型调度的 prompt,不同的应用哪个大模型最好用?把它交给大模型,然后再回来做一些类似的工作,最后推到手机端,推到眼镜端。


张鹏所谓的 AI 的智能硬件,如果只是接个 API,是不能交付足够好的结果的。它确实要站在用户价值上,要做一套比较完整的、合理的架构,然后去合理的调用。

你们已经涉及到了不同模型的调用,甚至涉及到更长期的记忆如何存储、如何调用、如何配合。在不同的场景、交付的不同的价值下,可能都要考虑怎么去更合理地运用 AI,这个我觉得会成为未来 AI 智能硬件里很重要的一点,它真的不是只接个 API 就能解决的问题。


我们理解 GUI,刚才你也说到 VUI,还说到 NUI,这本质上就是未来的交互。未来的交付并不是要替代手机和电脑,但是它有可能会增加一种更接近用户的自然体验的交互和交付,交互和交付都因为它会有所不同。你怎么去定义和理解所谓的 GUI、VUI、NUI?


夏勇峰:GUI 其实就是我们熟知的图形用户界面,当时对计算机来讲是一次非常重要的革命,因为要让机器知道人想干什么,其实是一件很困难的事。计算机早期的汇编语言都是一些非常标准化的东西,这个时候规定了一种范式,到后来就到了智能手机这个时代,但是它其实仍然是一种范式,比如说屏幕,你需要告诉这个机器,你点到哪了。这就是为什么早期有一些老年人,使用智能手机其实有很高的门槛,因为还是需要学习,虽然学习的成本比以前你学文字输入、学QWERTY的键盘要简单一些,但它还是有门槛。


未来整体的交互,很多朋友都认为,会进入一个 NUI 自然用户界面。你只需要做自己就好了,该说什么话说什么话,该做什么动作做什么动作,机器变得越来越聪明了。


你做自己,机器就知道你想干啥,然后就给你相应的服务,这个是我们认为未来的交互,它可能形成了一种形态,特别是在通用大模型出现之后,可能我们没办法很快出现通用人工智能,但是让机器能够识别到你的自然行为,这件事情会容易很多。


我认为这个也是我们未来眼镜要实现的一个目标,当然同时也是因为,如果想在眼镜上用键盘打字,或者要用触摸操作,这基本上也实现不了。


张鹏:举个例子,假如说我旁边有个助理,我用手指这里,跟助理说「把这个关掉」,这是我们正常的情况,但如果在今天我要去跟小爱同学交流,我恐怕还得说「小爱同学,把我卧室里的空调往下调低多少度」。


但理论上,未来如果你有这样的一个设备,假定它是能够开眼看世界的,有一个传感器,我说把这个关掉有点冷,它应该就能识别我在哪个空间,同时知道我说的是空调,我不需要去指出具体的要求,这是我具象化一下你说的那个场景。按照这个推理来讲,我越来越觉得,真的不考虑加上摄像头输入交互吗?


夏勇峰摄像头看了之后,如果还是需要自己去输入指令给机器的话,其实还是 VUI,但是机器有一个摄像头,可以减少你的输入成本


张鹏:就像我说,「把这个关掉」,而不是说「把卧室的空调下调几度」,这个其实就降低了我的输入成本。这个摄像头本质是意图传感器,我猜未来肯定会加的。


夏勇峰:我先把VUI做好,其实对我来说VUI是NUI的一个前置阶段,VUI做好的价值就非常大了。



05 AI不会凭空创造需求

只能无限提升体验



张鹏:前段时间字节买了个耳机的公司,耳机看起来也是可以在 VUI 上走的。为啥你做的不是耳机,而是眼镜呢?


夏勇峰:我觉得耳机跟墨镜基本上是一类产品。用户不是每天无感的,或者从早到晚的戴,它是一个有了需求才会戴上,需求结束马上摘掉的产品。VUI需要有很多交互,但你需要用这个交互的时候,它可能根本不在你的耳朵上。


张鹏:本质上还是用户使用时长不够。


夏勇峰:你不可能戴一天的耳机,否则走路很危险,开车也用不了。


有人问我们,为什么不做充电盒?因为我们没有「不用了就把它摘下来」这样的一个场景。如果是耳机不用了,你会把它摘下来,放到充电盒里,它可以继续充电,这是很自然的。但是眼镜就得用一天,所以我们的续航一定要能用一天,不可能说,我是一个近视的用户,下午 2 点钟就把它摘下来了,这个不太可能。


对 AI 来说,有主动发出指令,也有被动收到 AI 通知的场景。比如说通知,主动给你小结的这种,当你耳机在充电盒里的时候,没有任何作用,但是如果戴的是一个眼镜,基本上每天是无缝无感地在使用,这是它最大的一个区别。


张鹏:这个视角也对,我觉得要从让用户能带上且能长期带上出发,才能让 AI 在需要发挥作用的时候真的就能起到作用。不能把它变成一个「目的地」型的东西,什么时候要用AI了再戴上。


夏勇峰:我们有一句 slogan 叫「科技革新传统眼镜」,因为我们之前的用户里,89% 都是矫正用户,近视或者老花用户。他们用了这个眼镜之后,如果是长期戴眼镜的人,基本上是近乎100%替代了自己平常使用的传统眼镜,传统眼镜就变成了它的备用镜,所以它的替代性是很明显的。


但是我们其实没有替代耳机。因为现在有对耳机有很多需求,比如说想安静的时候,有降噪的需求,我们做不到。打游戏的时候有低延时的需求,这个我们未来可能可以做到,但是现在肯定没有游戏类的专业耳机好。比如说客服戴的耳机,需要一个离嘴非常近的麦克风。总之就是,耳机的多样性非常多,不可能用我们这样一个音频类的产品就能 over掉所有的耳机需求,但是基本上cover了他们眼镜的需求,这个是数据统计的结果。


张鹏:有道理,而且如果真的要让科技革新传统眼镜,我就能理解为什么需要考虑很多不同的款型,不能说一出门,发现大家怎么戴的都是一个款型的眼镜。


夏勇峰:传统眼镜的历史已经证明了,单一款型不work。


张鹏:所以它其实是需要更多个性化的选择,但同时又要做到让大家先能戴上,而且长时间的戴上。


这一点我觉得还挺重要的,我们判断互联网的一个产品有没有在未来做越来越多的能力,核心就是用户得有时长。


所以有可能存在这么一个点,我可能说的有点武断,就是未来的 AI 智能硬件的佩戴时长得有个三五个小时起步,否则这个 AI 硬件可能最后就还是卖了个 AI 噱头,没有真正长期的成长性


夏勇峰AI硬件就是使用AI的硬件。总体来说,人们从早到晚都在用的有两大巨头——电脑和手机,它首先要从两大巨头之外找到自己生存的空间,在这个空间里,它要成为大家使用AI的第一优先级,这个可能是它的一个最基础的生存条件。


张鹏:今天得到的一个启发就是怎么去看 AI 硬件,有一个很重要的维度,就是到底是拿 AI 当卖点去卖硬件,还是硬件未来能顺着 AI 的能力持续成长,释放更大价值。这个核心的分界点就是,用户到底有多少使用时长,要做到这一点,就得先解决用户的某个确定问题,把它解决好,才可能会有这个资格。


夏勇峰:我也做了几百种不同的硬件了,越来越感觉到,人的需求能够不断地被满足得更好,但是想要创造一个需求其实是非常难的。我觉得AI不会凭空给人创造一个之前本身就不存在的需求,它只会让人的某些需求能够被满足得更好,或者是提高某些效率,或者是让人听什么东西听得更爽,看什么东西看得更爽。


以前某些场景下满足不了的需求,现在因为AI可以满足了,基本上只能是对需求的进一步满足,不太可能出现之前不存在的需求。比如说需要一个外脑,像上帝一样天天在你旁边,来分析你所有的每天从早到晚的事情,我觉得它太宽泛,或者说太理想化了,它得具体到人本身的需求。


可能这一点我也有一些武断,我觉得需求只会被满足得更好,但是不可凭空创造需求。我发现某一些AI硬件,它觉得有了AI可以凭空创造出之前不存在的需求,这一点我持比较谨慎的看法。


张鹏:Ray-Ban Meta 的这个眼镜,大家之所以这么关心,核心就是,这是所谓的科技眼镜产品中,第一个卖过百万台的,除了之前的VR这种被大平台狂推的东西,这是用户自己主动去买的设备。你会怎么判断它未来可能的走向?


夏勇峰:海外有一些关于 Ray-Ban Meta 的用户调研报告,超过40%的用户对它的第一的诉求其实是第一视角拍摄视频质量OK,而不是AI。


张鹏:肯定不是,因为它出来的时候还没有什么 AI 相关的东西。


夏勇峰:然后我们再注意到,有很多用户,其实首先是需要一个墨镜,Ray-Ban 又是一个足够好的牌子。有个朋友跟我说,他走进了一家Ray-Ban的店,需要去买一个墨镜,他发现有普通墨镜和Ray-Ban Meta,中间的差价非常少,应该是在几十美元这样的一个程度,一个是传统的,一个带了很多功能,然后用户就选了Ray-Ban Meta。


张鹏:所以科技几乎是赠品对吧?是一个让你觉得很合算的赠品,有点这种感觉?


夏勇峰反正我是觉得,因为AI去买Ray-Ban Meta的人,在目前它的用户群里应该是相对的少数。如果没有AI,它做了非常好的一个智能的墨镜,我觉得他也能卖到跟今天相差不远的数量。


张鹏:所以它其实并不是因为AI才火的。本质上是一个好的品牌,然后加了科技感和一些有意思的功能的产品,大家一看差价也不太多,原来买个普通 Ray-Ban 也得这个钱,那就买了。


夏勇峰:但是话说回来,如果AI持续升级,它有可能从现在的第二卖点上升,直到某一天基于它的用户群免费(眼镜的AI使用是免费的,没有订阅费),它变成了一个非常高价值的点,这个时候它可能会完成从一个足够好的智能墨镜到一个真正的AI眼镜的转变,这是有可能会发生的。



06 越是无限可能

越要约束自己的想象


张鹏:以前我们都说,要搞硬件还得看中国,过去这些年有哪个海外团队搞硬件能真正火起来的?基本都是中国的团队。但这一波你怎么看?结合大模型这件事,有没有可能,海外会有一些硬件团队,会顺着这波新的技术浪潮做出一些超级品类的产品,会有这种可能性吗?还是说这个未来还是属于咱们中国团队的?


夏勇峰:从经验主义的角度来看,我不看好美国会有新的创业团队做出一个风靡全球的AI base的硬件。


当时在小米生态链的时候,其实我也见了非常非常多美国硬件的团队,东海岸、西海岸都有。比如说Lily无人机,这是当年非常火的一个号称创新的无人机,这些团队的创始成员大部分没有硬件背景,甚至没有关于硬件的很多粗浅的概念。美国大部分的硬件创业者,之前都是算法工程师或者是软件产品经理,当然也不绝对,可能也有从Tesla,从苹果的硬件团队出来的,也有设计师出身的。


张鹏:他们会容易犯什么错呢?


夏勇峰:我觉得不是容易犯什么错,他们会把硬件理解得过于简单,因为硬件和软件中间的这个墙一直都没有被完全打破,除非你已经是一个巨大的成功的公司。他们会认为,他们设想了一个产品,只需要在中国找一个工厂就能完全帮他做出来。


但是硬件里,需要去修改产品定义或者妥协的部分,他们一般都不会很在意。前段时间有一个非常火的国外团队,找我们的一个世界500强的合作伙伴,给他们ODM了一款硬件产品,全程好像一共通过10次邮件。他们不谈硬件的细节,我觉得这点是有比较大的缺失,他们对于硬件的设想也会相对理想化一点。当然因为他们的大模型和 AI,包括他们的AI应用、agents都会比较先进一些,所以他们对于AI未来的一些模型应用,硬件上会比我们的更先进一些。


有一个词儿可能不太恰当,我觉得他们更像是AI的原教旨主义者,他们认为 AI 能改变一切,能创造一切,这是我跟他们当中的一些人沟通时的感觉。所以,我觉得中国团队还是有机会的,但如果只是中国擅长硬件或者供应链的团队,恐怕不行。特别是在 AI 上,恐怕是不行的。我们的缺点也非常明显。


张鹏再追问一下,今年在一开始火起来就是 AI Pin,后来也遇到了很多吐槽,它的问题到底在哪?


夏勇峰:他实现不了想要的那个感觉,如果他自己的硬件概念更多一些的话,就会知道,不管是投影还是固定的方式,根本不能够支撑他作为一个哪怕是手机的备用品这件事,投影就得有流明的概念,就会设想它在室外和室内的使用问题,其实通过非常简单的一些数据和参数的推导,就会知道这个产品会存在问题。


张鹏:据我所知,中国已经有大量团队在这种所谓智能眼镜的赛道上聚集了,你怎么看?是不是很快会有百镜大战了?在这里,最终要想能够活下来,能够创造更大的价值,你会觉得核心在考验什么?


夏勇峰:我知道的创业团队和有一些公司的项目大部分类似于 Ray-Ban Meta,然后也有一部分是基于现有的一些智能眼镜,直接把摄像头往上加的,你知道它能够帮你识别内容,但是大部分人其实就是问一下这是什么,然后得到一个回答,尝尝鲜。


可能是我了解不够,现在我还没有看到更深入的一些应用。未来的百镜大战,我觉得它会快速产生,然后快速教育市场,然后会出现非常快速的淘汰和迭代的过程。


张鹏:涨潮快退潮也快。


夏勇峰:如果出现真正创新的东西,它的崛起也会非常快。不会给慢性子的人留时间、留空间。要么就是忽然长出来一个,要么就是挂得非常快,基本上会出现这样的一个情况。所以我觉得,考验的一是资源能力,二是对于 AI 和硬件的理解力,三是这个组织的效率。基本上就是考验这几点,以现在我们所知道的信息,类似这样的局面应该在不久的将来就会到来。


鹏:我们说百镜大战在路上,但是可能也是一场快速的战役,记得当年无人机曾经也有过一波热潮,后来就全消退了,没有人跟大疆一起搞了,能够看到这种感觉,今天应该是很多人都在关注、在做,但把这事做对、做到位,变得很关键。


最后我再追问个问题,蜂巢这样的一个公司,在界环这样的一个品牌下,未来想实现的是一个什么样的目标?也许可能不是一下就改变个人计算,但你阶段性想实现的目标到底是什么?你觉得大概会用一个多长的周期去实现它,实现的时候可能会是个什么样子?


夏勇峰:所谓界环,就是世界之环的意思。什么叫世界之环呢?就是自我和世界,他人即世界,你自己和世界中间的界限,我们想要倡导的理念是「融入世界而不丧失自我,取悦自己而不是自我封闭」。


最早我说为什么不做VR,我觉得VR是一个把自己完全封闭起来的一个东西。我希望做开放的、在自己日常的行动中、在你日常完成自己目标的这个过程中,它能够帮助到你,在旁边给你一个附加的东西,我希望做这类的产品。所以眼镜相机和现在的音频眼镜,其实目标是一致的,就是你自己有你自己的目标,然后不要封闭,但是也不要丧失自我。


这是界环还想传达的一个理念,我希望现在第一阶段能够实现的目标就是,音频眼镜能够以每年两倍、三倍的销量的增速去替代传统眼镜。反正今年是实现了,我觉得明年大概率也能实现,用3到4年的时间,每年超过100万台,我觉得它会迎来一些质变。目前我的核心还是在满足传统眼镜需求的同时,逐渐去对传统眼镜产生一些替代性的作用,然后同时能够在每个人的耳机使用时间上占到比其他的类型的耳机更多的时间,这个是我现在这个阶段的努力,是比较艰难的目标。










跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 音频眼镜 智能硬件 蜂巢科技 AI 技术 用户体验
相关文章