36kr 2024年11月22日
IDEA研究院与腾讯、美团、比亚迪达成具身智能合作|最前线
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

具身智能正迎来新一轮落地浪潮,视觉感知作为其核心能力,在Transformer架构的推动下,视觉模型不断发展,提升了全场景视觉感知能力。IDEA研究院发布的DINO-X通用视觉大模型,具备物体级别理解能力,无需用户提示即可实现开放世界目标检测。同时,IDEA研究院与腾讯、美团、比亚迪等企业合作,探索具身智能在人居环境、无人机、工业机器人等领域的应用。文章指出,AI大模型的应用大幅提升了机器人认知和决策能力,未来具身智能的落地应聚焦人类高风险任务,从小场景做起,逐渐拓展应用范围。

🤔 **DINO-X通用视觉大模型的发布:**IDEA研究院发布了最新的DINO-X通用视觉大模型,它具备物体级别理解能力,无需用户提示,即可实现对开放世界(Open-world)目标检测,这标志着视觉感知能力的显著提升,为具身智能技术落地拓展了空间。

🤝 **与腾讯、美团、比亚迪等企业合作:**IDEA研究院与腾讯、美团、比亚迪等企业达成合作,分别聚焦人居环境具身智能技术、无人机视觉智能技术以及工业化机器人智能应用,推动具身智能在不同领域的应用探索与落地。

🤖 **AI大模型赋能机器人认知与决策:**文章指出,AI大模型的应用大幅度提升了机器人认知和决策能力,通过融合多模态信息,增强了机器人对物理世界的理解角度,为机器人更复杂的任务执行提供了可能。

🚀 **具身智能落地场景:**美团副总裁毛一年认为,机器人首要的应用场景应以人类高风险任务作为切入点,例如上山巡检、深海检测等,通过从小场景做起,逐步拓展应用范围,确保机器人应用的稳定性和可靠性。

作者|黄楠

编辑|袁斯来

对具身智能而言,开发环境感知和理解是核心能力。视觉感知作为机器和物理世界交互的基础,自Transformer架构诞生后,视觉模型与之结合、走上一条“从小变大,从N变1”之路,带来了全场景视觉感知能力的提升,为技术落地拓宽空间。

11月22日,2024 IDEA大会在深举办,IDEA研究院现场发布了最新的DINO-X通用视觉大模型,它具备物体级别理解能力,无需用户提示,即可实现对开放世界(Open-world)目标检测;同时还推出行业平台架构,通过大模型基座结合通用识别技术结合,实现模型不需重新训练就可边用边学,以支持多种应用需求。

以具身智能为代表新一轮落地浪潮中,技术路径更强调泛化性,追求现实场景适配。会上,IDEA研究院宣布达成了三大合作:与腾讯,在深圳福田区、河套深港科技创新合作区落地建设福田实验室,聚焦人居环境具身智能技术;与美团,探索无人机视觉智能技术;与比亚迪,拓展工业化机器人智能应用。

IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋

此前,机器人已进入工厂制造、汽车生产车间、物流仓储码头等场景,可在半结构化领域中完成基础性工作,但仍缺乏对真实场景的认知能力,应用空间局限;比如住宅区域地面车辆的物流配送,需要克服复杂的地面环境。

IDEA研究院计算机视觉与机器人研究中心负责人张磊就指出,“机器人有不同的形态,有双臂机器人、移动机器人,如果移动机器人分室内、室外,室外更像是无人驾驶,需要面对结构化、半结构化的道路环境,高速公路更结构化,进到城市再到小巷,面对的问题更复杂。”

而AI大模型的到来,大幅度提升了机器人认知和决策能力。腾讯Robotics X实验室智能体中心负责人韩磊表示,“语言作为人类知识或是思维的高度抽象,符号化的语言可进行长期且慢速的高维思考。而机器人是站在第一人称视角看待这个世界的Agent,所以首要的是从视觉理解这个世界。”

《从视觉到行动:具身智能的挑战和机遇》圆桌

当机器人进行运动时,一个纸盒子的折叠、向某一方向的行进,往往难以用简单的语言进行步骤描述,而有了多模态加入后,融合物理世界认知的具身智能可以有效增强机器人对世界的理解角度。

在落地方面,美团副总裁兼无人机业务部负责人毛一年认为,机器人首要的应用场景,应该以人类的高风险任务作为切入点,如上山巡检、 深海检测、油田钻井、高楼清洁等,“随着全身控制、行动控制、手、视触协同,从小场景做进去、用起来,用户不会说它好,也不会骂它,不会一脚把它清出去。我们希望看到它不砸锅,这件事很重要。”

IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋指出,在技术大爆发时期开展创新,对技术的深度理解尤为重要。而“深圳是一座用迭代软件的速度迭代硬件的城市。”

除上述提及的福田实验室外,IDEA与前海深港合作区共建IDEA前海创新院,与深圳龙岗区合作建设IDEA低空经济分院,与横琴粤澳深度合作区共建IDEA-横琴数字技术及人工智能测评中心。初创生态方面,IDEA也孵化有识渊科技、AI玩伴机器人爱小伴、GPU加速电影工业渲染器Smaray慧光追等生态企业。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

具身智能 视觉感知 大模型 机器人 AI
相关文章