Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队：用AI“手”感世界—

原创 Z Potentials 2025-06-17 12:32 广东

围绕多模态融合、灵巧手控制和现实部署问题，开展了一系列具有里程碑意义的合作研究。

近期，人工智能领域对“具身智能”的讨论持续升温——如何让AI不仅能“理解”语言，还能用“手”去感知世界、操作环境、完成任务？相比语言模型的迅猛发展，真正通向Agent的下一步，需要AI具备跨模态感知、动作控制与现实泛化能力。具身智能让AI不仅能“思考”，更能“感知”“行动”。

图片来源：https://haozhi.io/rotateit/

图片来源：https://penspin.github.io/

由来自加州大学伯克利分校（UC Berkeley）、加州大学圣地亚哥分校（UC San Diego）（卡内基梅隆大学（CMU）、Meta AI（FAIR）等多所顶尖研究机构的学者和工程师共同组成的具身智能研究团队，近年来围绕多模态融合、灵巧手控制和现实部署问题，开展了一系列具有里程碑意义的合作研究。

团队成员包括 Jitendra Malik、Yi Ma、Xiaolong Wang、Roberto Calandra 等知名学者，在机器学习与机器人交叉方向发表多篇顶会论文（CoRL, RSS, ICRA, NeurIPS 等）。

其中 Haozhi Qi 是加州大学伯克利分校（UC Berkeley）电气工程与计算机科学系的博士生，师从计算机视觉领域的奠基人 Jitendra Malik 教授和稀疏表示理论的提出者 Yi Ma 教授。他的研究聚焦于机器人学习、灵巧操作、多模态感知与强化学习，致力于构建能够在现实世界中进行精细操控的具身智能系统。

在博士期间，Haozhi Qi 完成了多项具有影响力的研究工作：

RotateIt（CoRL 2023）：提出了一个融合视觉、触觉和本体感知的多模态策略系统，实现了机器人手指尖对任意物体在三维空间中的连续旋转控制，标志着通用物体操控能力的重要突破。

PenSpin（CoRL 2024）：首次在真实环境中实现了机器人手指间的笔状物体连续旋转，克服了高动态、非结构化任务中的数据稀缺问题，展示了指间 gaiting 自主学习能力。

NeuralFeels（Science Robotics 2024）：开发了一个结合视觉和触觉感知的系统，使机器人能够在操作过程中实时估计物体的形状和姿态，提升了在复杂环境中的操控精度。

此外，他还担任了多个顶级会议（如 NeurIPS、ICRA、CoRL）的Seminar组织者，积极推动机器人灵巧操作和多模态感知领域的发展，为构建能够自主感知、决策和执行任务的 AI Agent 提供了新的方向。

在本次学术讲座中（美西时间6.19号晚上7PM/北京时间6.20号早上10AM），Haozhi Qi将特别聚焦发表于 CoRL 顶会的代表性工作——PenSpin 与 RotateIt。这两项研究分别从高难度的动态精细操控任务与通用多物体操作能力出发，探索了如何从感知、表示、控制三个层面构建具身AI系统。

这不仅是全球首次在真实环境中实现笔状物体的连续旋转，也是当前唯一能在三轴方向上对任意物体实现稳定、可泛化控制的机器人系统。团队通过策略迁移、感知融合和强化学习的协同设计，逐步走出了一个清晰的方向——将传统机器人方法、深度强化学习与大模型的推理能力结合，构建真正“能动”的智能体。