第一财经杂志 2024年08月27日
字节发首款混合现实设备;智元机器人要做开源平台…
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

涵盖PICO发布混合现实头显、智元发布人形机器人、Claude移动应用收入等内容

🎮PICO发布首款消费级混合现实头显PICO 4 Ultra,售价4299元,搭载高通骁龙XR2 Gen 2计算平台,具有多种功能,但取消了部分功能。PICO业务曾收缩,但其在新方向上的探索未停止。

🤖智元发布5款商用人形机器人,分为两大家族。硬件升级,在动力、感知、通信、控制等方面取得技术突破。灵犀系列专注数据采集,且部分产品开源。

💲Claude移动应用4个月收入超100万美元,虽落后于ChatGPT,但超过Perplexity和微软Copilot。Anthropic公司被认为有竞争力。

🔍微软Recall功能10月上线测试,此前因默认记录操作被认为威胁用户隐私,后微软回应将设置为默认关闭并增强安全性。

📖ElevenLabs旗下文本转语音应用Reader全球上线,支持多种语言,增添新声音,未来将增加更多功能。

上周模型与应用

PICO发布首款混合现实头显;

智元发布5款商用人形机器人,要做开源平台;

Claude移动应用4个月赚了100万美元,落后于ChatGPT;

微软Recall功能10月上线测试;

ElevenLabs旗下文本转语音应用Reader全球上线。

 

本周模型与应用

PICO发布首款混合现实头显

8月20日,字节跳动旗下虚拟现实硬件公司PICO举行新品发布会,推出首款消费级混合现实(MR)头显PICO 4 Ultra、动作捕捉配件PICO体感追踪器以及企业级产品PICO 4 Ultra Enterprise。

PICO 4 Ultra是PICO这次的主力新产品,售价4299元。PICO 4 Ultra搭载了高通骁龙XR2 Gen 2计算平台,芯片的GPU性能提升了2.5倍,可以支撑更好的游戏画质。新头显的混合现实视觉方案由机身上的7枚视觉传感器组成,机体四周的4颗环境追踪摄像头用于 SLAM 空间定位,还有双目3200万像的彩色摄像头和1颗iToF深度感知摄像头用于环境感知。此外,PICO自研了环境感知算法,可以实现实时创建3D地图、环境语义理解(识别家居环境中的家具)、空间描点(把虚拟物体定位在真实场景的物体上)等功能。

PICO 4 Ultra还引入了全景屏工作台,用户可以在现实空间中同时打开和排布多个虚拟大屏,同时打开多个PICO OS兼容的安卓与Web应用。此外,用户可以观看空间视频,也可以在系统导航栏切换沉浸和透视模式。PICO 4 Ultra兼容iPhone或者Vision Pro拍摄的空间视频与照片。但是,相比PICO 4 Pro,新头显PICO 4 Ultra取消了眼动和面部追踪功能,主要原因是这些功能使用频率较低。

这是PICO 4系列的最新款产品,也是最贵的一款产品。同系列的早期型号PICO 4推出于2022年9月,售价2499元起,2023年4月推出的PICO 4 Pro定价3799元起。

PICO业务于2023年收缩。去年2月,PICO将2023年全年销量目标定为50万台左右,相比2022年制定的销售量目标缩水约50%。其中,中国消费者产品销量目标35万台,企业端市场15万台。根据IDC公布的数据,2023年中国VR头显出货量46.3万台,PICO的市场份额约56.6%,折合约26万台。

但是字节跳动没有放弃PICO在新方向上的探索。张一鸣曾经询问PICO创始人周宏伟,是否能在两年内开发出类似苹果Vision Pro的产品,周宏伟当时答应了。同时期,PICO的业务重心「从追求市场规模转向专注研发,以实现更有意义的技术突破」。

 

智元发布5款商用人形机器人,要做开源平台

8月18日,人形机器人独角兽「智元机器人」举办2024年度新品发布会,发布了「远征」与「灵犀」两大家族、共5款人形机器人,分别为远征A2、远征A2-W、远征A2-Max、灵犀X1与灵犀X1-W。其中:

·远征A2为交互服务机器人,并兼任发布会现场主持人;

·远征A2-W为柔性智造机器人,在发布会开头的情景剧中完成了制作「萄气可乐」所需的理解人类意图、辨别不同物品与精准抓取等动作流程;

·远征A2-Max为重载特种机器人,在情景剧中搬起了40kg重的航空箱;

·灵犀X1与灵犀X1-W分别为全栈开源机器人与专业数采机器人,这两款模块化机器人产品由不到10人的团队在两个多月的时间内开发完成。

硬件升级

智元机器人将机器人系统分为动力域、感知域、通信域、控制域等四大领域,相较于一年前发布的远征A1,新发布的远征A2在这4个方面均取得了技术突破。

·动力层面,智元对去年发布的PowerFlow关节模组的可靠性与稳定性进行了大量优化与测试,今年该关节模组将实现商用量产;灵巧手的自由度数从11个跃升至19个,主动自由度翻倍至12个,并搭载基于MEMS原理的触觉感知和视触觉感知技术,能够使用电动螺丝刀、拆快递、纽扣穿针,完成功能性抓取、双手协同作业、基于视触觉的目标识别等任务。

·感知层面,引入自动驾驶领域的Occupancy等感知方案,通过SLAM算法提升环境理解能力,使得机器人能够在办公区、4S店等较为嘈杂的公共环境中实现精准避障。

·通信层面,智元自研了具身原生、轻量化、高性能的智能机器人通信框架AimRT,并宣布将在9月底开源。AimRT在提升性能、稳定性、系统部署的效率和灵活性的同时,能够兼容ROS/ROS2已有生态。

·控制层面,智元机器人结合Model-based与Learning-based两种算法路线,并预研基于自然语言指令集驱动的AgentOS,实现对机器人运动控制的精准编排。

灵犀系列专注数据采集问题

而灵犀X1由今年6月刚刚成立的智元X-Lab研发,融入了模块化设计理念,可以通过简单抱箍形式轻松拆装。智元将开源该机器人的大部分设计资料和代码,通过降低人形机器人软硬件开发门槛,实现「人形机器人人人造」。也因为开源,灵犀X1的售价为0元,仅出售核心零部件。

智元将具身智能技术演进路线划分为G1到G5共5个阶段,为实现G3阶段数据驱动端到端的目标,在面向数据的大量基建工作中,智元提出了一套名为「具身智能数据系统AIDEA(Agibot Integrated Data-system for Embodied AI)」的具身数据方案,通过提供数采本体、遥操设备、数据平台三个方面解决具身数据采集问题。

此次发布会上,智元联合创始人彭志辉宣布,将在今年第四季度开源业界首个百万条真机、千万条仿真数据的具身数据集,以支持具身产业的发展创新。

 

Claude移动应用4个月赚了100万美元,落后于ChatGPT

8月22日,Appfigures发布的最新数据显示,历时16周,Anthropic的AI应用Claude在移动端的总收入超过100万美元。发布第一周,Claude的全球下载量仅15.7万,而其主要竞争对手ChatGPT仅在美国App Store上线5天就获得了48万次下载。Claude达到百万美元收入的速度也远落后于ChatGPT的3周,但领先于Perplexity和微软的Copilot,后者分别耗时22周和19周。

Anthropic成立于2021年,早期团队成员全部来自OpenAI,它于今年3月4日发布的Claude 3系列模型的Opus版本,被部分数据集评分认为能力超过GPT-4,Anthropic也被称为最有可能与OpenAI竞争的公司。

 

微软Recall功能10月上线测试

8月22日,微软宣布,在所有 Copilot+ PC中上线之前,将于今年10月面向Windows Insider Program社区用户开放测试AI搜索功能「Recall」,届时还将发布一篇包含更多详细信息的博客文章。今年5月,微软发布了AI PC功能Recall,可以实时截取用户屏幕,以便用户询问之前看过的信息。但Recall会每隔几秒钟自动截取一次包含活动窗口的屏幕,默认记录用户在Windows上的所有操作,被认为对用户隐私造成威胁。微软于6月回应称Recall将设置为「默认关闭」,并承诺将增强这一功能的安全性。

 

ElevenLabs旗下文本转语音应用Reader全球上线

8月19日,ElevenLabs旗下文本转语音产品Reader全球上线,该应用最早于6月在美国、英国、加拿大发布,支持用户上传PDF文档、电子书等文本转语音进行收听,目前支持日语、韩语、西班牙语、葡萄牙语等32门语言。此外,ElevenLabs表示,其语音库中已经添加了数百种新声音,公司也为Reader拿到了部分艺人的声音的授权,未来还将增添离线支持与共享音频片段等功能。Reader是ElevenLabs的第一款C端产品,此前,ElevenLabs为AI搜索引擎Perplexity与音频平台PocketFM和KukuFM提供文本转语音服务。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PICO 智元机器人 Claude 微软Recall ElevenLabs Reader
相关文章