深度财经头条 06月29日 22:06
千寻智能解浚源:具身智能3-5年有望跨入GPT4时代
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了具身智能的当前发展阶段,将其比作GPT1至GPT3之间,并重点分析了视觉-语言-动作(VLA)模型对该领域带来的变革。文章指出,VLA模型通过模仿学习和Diffusion Policy,显著降低了对真机数据的依赖,提升了泛化能力。同时,文章也介绍了千寻智能在具身智能领域的实践与融资情况,预判未来3至5年内,具身智能技术有望实现跨越式发展。文章还提到了具身智能在量产和基础设施完善下的数据增长潜力,以及行业内对该领域未来发展的乐观预期。

🤖️ 具身智能发展现状:当前具身智能的发展水平类似于GPT1到GPT3之间,其核心包括“本体”和“运控”两大方面,其中“运控”层面的智能算法是发展的关键。

💡 VLA模型的关键作用:VLA模型的兴起是具身智能领域的重要转折点,它结合了VLM与Diffusion Policy,借助互联网海量数据预训练,降低了对真机数据的依赖,从而提升了模型的泛化能力。

🚀 千寻智能的实践与发展:千寻智能通过互联网数据预训练、真机数据模仿学习和强化学习优化,实现了技术的突破,并获得了7亿元的融资,表现出强劲的发展势头。

📈 未来发展趋势:若“Scaling Law”在具身智能领域成立,机器人数据量有望快速增长,预计未来3至5年内,具身智能技术效果将实现从GPT1到GPT4级别的跨越式发展。


《科创板日报》6月29日讯(记者 张洋洋)在“具赋新能 智驱未来”青年科学家成果转化暨具身智能高质量发展研修会上,千寻智能具身智能部负责人解浚源对行业现状与前景作出研判分析。他把当前具身智能发展水平类比于GPT1至GPT3之间,而视觉-语言-动作(VLA)模型的兴起,正为该领域开启遵循“Scaling Law”(规模法则)实现能力跃升的可能性。

解浚源分析,具身智能涵盖“本体”(小脑)与“运控”(大脑)两大核心。虽然本体机械性能已相当成熟,但“大脑”层面的智能算法曾长期遇阻。

VLA模仿学习路线的兴起成为关键转折点。Diffusion Policy生成模型,有效解决传统行为克隆的“多模行为平均化”难题,支持从随机状态生成多元路径。

VLM与Diffusion Policy结合(VLA范式),借助互联网海量数据预训练赋予模型“世界先验知识”,显著降低对真机数据的依赖,实现强泛化能力。

受大模型训练范式启发,千寻智能也是采用了类似的方式,利用互联网数据预训练,建立基础认知;真机数据模仿学习,学习具体动作;强化学习优化,将成功率从95%提升至99%以上,补足最终精度缺口。

解浚源预判,若Scaling Law在具身智能领域成立,伴随量产与基础设施完善,机器人数据量有望按每年一个数量级递增,例如今年百台级,明年千台级,后年万台级。据此推测,未来3至5年内,具身智能技术效果有望实现从GPT1到GPT4级别的跨越式发展。

值得关注的是,千寻智能创立于2024年2月,发展势头迅猛。成立4个月内即完成近2亿元种子轮+天使轮融资;今年3月再宣布完成5.28亿元人民币Pre-A轮融资。成立半年累计融资已超7亿元。

资方阵容强大,Pre-A轮由沙特阿美风险投资旗下Prosperity7 Ventures(P7)领投,招商局创投、广发信德、靖亚资本、东方富海、华控基金、达晨财智、柏睿资本、弘晖基金等多家头部机构参投。

创始团队上,两位联合创始人背景深厚——韩峰涛曾任珞石机器人联合创始人&CTO,拥有丰富机器人制造与量产经验,高阳曾是清华大学交叉信息研究院助理教授,现兼任公司首席科学家。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

具身智能 VLA模型 Scaling Law 千寻智能
相关文章