夕小瑶科技说 04月06日 20:02
鸽了两年放大招!稚晖君发布灵犀X2,上演“自行车杂技”+“葡萄缝针”神技,比人还会演
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智元 X-Lab 发布了最新具身智能机器人——灵犀 X2,这款机器人集成了多种能力,包括强大的运动能力、智能交互和通用任务执行。它通过深度学习和强化学习算法,实现了骑自行车、跳舞等复杂动作。灵犀 X2 还搭载了基于扩散模型的生成式动作引擎和情感计算引擎,使其具备高度智能化的交互能力和情感感知。此外,智元 X-Lab 还开源了具身智能仿真数据集,并发布了 RoboDual 大小脑系统架构以及最新的 ViLLA 架构具身基座大模型 “启元” (GO-1),标志着具身智能技术的新突破。

🚴‍♀️ 灵犀 X2 机器人具备强大的运动能力,它采用了学习驱动的强化学习策略,能够掌握驾驶滑板车和平衡车等复杂运动技能。它还能够超轻盈地骑自行车,展现了其卓越的运动控制能力。

🗣️ 在交互智能方面,灵犀 X2 搭载了基于 Diffusion 模型的生成式动作引擎,并训练了多模态交互大模型——硅光动语。这使得灵犀 X2 具备高度智能化的交互能力,实现了毫秒级的交互响应速度,例如快速读取药品说明书。

🧠 灵犀 X2 机器人还搭载了情感计算引擎 Reaction-Agent,使其具备情感感知能力。例如,当被问及伦理问题时,它能给出符合人类价值观的回答。此外,智元 X-Lab 还开源了具身智能仿真数据集,并发布了 RoboDual 大小脑系统架构以及最新的 ViLLA 架构具身基座大模型 “启元” (GO-1)。

⚙️ GO-1 基座大模型通过融合多模态大模型与混合专家系统,有效突破了传统具身智能的四大瓶颈,包括泛化性不足、跨本体适配性差、数据利用率低以及缺乏持续进化机制。GO-1 在感知、规划和执行层面的优化,使得灵犀 X2 在生活场景任务中的成功率高达 78%。

原创 奶茶 2025-03-11 15:25 四川

jrm!稚晖君这次真的放大招了!昨天稚晖君就神秘预告今天会有惊喜,没想到惊喜程度远超想象!

稚晖君所在的智元 X-Lab 正式上线了史上最复杂的具身智能项目——灵犀 X2!

发布前,官方先是放出“烟雾弹”,预告将发布三款机器人,分别拥有以下能力:

    双足人形机器人:运动能力超强,能骑自行车能跳舞!
    智能交互机器人:搭载情感计算引擎,更有人情味!
    具身机器人:初步具备通用任务执行能力,保姆、保安、保洁、三保合一时代来临!

今早早上稚晖君揭晓真相:  一款机器人-灵犀 X2,它集齐了上述所有机器人的能力!

正式介绍之前,先给大家来几个机器人震惊小鹿的精彩瞬间:

超轻盈骑自行车:

用针缝葡萄:


稚晖君介绍,这次机器人的硬件系统像飞控去攒一套无人机航模一样,抽象出了一系列可复用的核心组件:

(1)小脑控制器 Xyber-Edge

(2)域控制器 Xyber-DCU

(3)智能电源管理系统 Xyber-B

(4)核心关键模组 PowerFlow 等

在运动控制算法方面,灵犀 X2 机器人摒弃了传统的基于模型的控制方法,转而采用学习驱动的强化学习策略。 通过深度融合强化学习与模仿学习算法的优势,机器人可以掌握复杂运动技能,例如驾驶滑板车和平衡车

此外,该系统还采用了智能体学习驱动的范式

从每秒数万次的环境交互和动作数据中自主学习,并优化运动控制策略,突破运动性能瓶颈

在交互智能方面,灵犀 X2 机器人搭载了基于 Diffusion (扩散模型)的生成式动作引擎,使其不仅具备强大的运动能力,更拥有高度智能化的交互能力。

研发团队坚持以理解人性为核心的交互设计理念,为 X2 训练了多模态交互大模型——硅光动语 ,这使得灵犀 X2 成为一台真正具备复杂交互能力,感知理解和认知世界的能力的灵动机器人。 此外,得益于边缘侧大脑的端到端模型架构以及大量的工程优化,X2 实现了毫秒级的交互响应速度

在视频展示中,能够 0 帧起手快速读取药品说明书,充分体现了其在复杂视觉信息处理和实时交互响应方面的强大性能!

除了功能上的显著提升,为了赋予灵犀 X2 更富人性化的特质,让它更有“人情味儿”,研究团队还在动作模态方面进行了精细的设计,为机器人融入了呼吸的韵律、人类的注意力机制等细节,使其行为举止更加自然生动:

稚晖君指出,人类对于理想机械伙伴的憧憬从未止步。  他强调,情感交互能力对于具身机器人至关重要。  因此,智元 X-Lab 将 Reaction-Agent 作为情感计算引擎,赋予了灵犀 X2 情感感知能力。

例如视频里,在问它:“与狗落水先救谁” 的伦理问题时,机器人能回答出符合人类价值观的回答。

除灵犀 X2 机器人本体外,智元 X-Lab 在本次发布中还宣布 开源具身智能仿真数据集,并同步发布了 RoboDual 大小脑系统架构 以及 最新 ViLLA 架构具身基座大模型 “启元” (GO-1)。  灵犀 X2 的核心能力其实就是源于 “启元” (GO-1) 基座大模型,通过 融合多模态大模型 (VLM) 与混合专家系统 (MoE),有效突破了传统具身智能的四大瓶颈。

    泛化性不足
    跨本体适配性差
    数据利用率低
    缺乏持续进化机制

(1) 感知层:实现多维信号整合与毫秒级场景理解

采用 InternVL-2B 模型整合多视角视觉、力觉反馈及语音输入,实现 毫秒级场景理解。  这种多模态感知能力赋予机器人 全面、精准的环境感知,为后续规划和决策提供 可靠依据

例如,在复杂工业生产线上,灵犀 X2 能够 快速识别零件、设备位置与状态,以及工人操作意图,实现高效协同作业。

(2)规划层:Latent Planner 生成任务链优化任务执行流程

规划层搭载 GO-1 大模型的 Latent Planner 组件,通过 隐式动作标记 (Latent Action Tokens) 生成任务链,将复杂任务 分解为可执行的子任务

例如, “叠衣服”  系统可将其细化为感知形状、调整角度等步骤,动态调整执行顺序和参数。

(3)执行层:Action Expert 生成精细动作序列

执行层由 Action Expert 组件 驱动,该组件基于百万级真机数据训练,能够生成 精细动作序列

例如:在 “倒水” 任务中,其误差可控制在 ±3ml 以内,满足日常生活及工业生产的 高精度操作需求

通过性能表现:GO-1 平均成功率提升 32%,生活场景任务成功率高达 78%

在五项标准任务测试中,GO-1 平均成功率较行业最优模型提升 32%  其中,“倒水”、“清理桌面” 等生活场景任务成功率高达 78%,展现出 强大的通用性和实用性

结语

总有人说人形机器人是浪漫主义陷阱,仿佛是对技术进步方向的误判。  然而,历史的车轮滚滚向前,总是在质疑声中碾压出新的道路。

莱特兄弟的飞机曾被嘲笑为异想天开,图灵的计算机也一度被视为庞大而无用的怪物。

如今看来,那些看似遥不可及的梦想,都成为了划时代的现实。

具身智能的发展亦是如此,它并非空中楼阁,而是技术演进的必然方向。  它承载着人类对自身能力延伸的渴望,对更智能、更人性化工具的追求。  与其说是浪漫主义的陷阱,不如说是人类理性与想象力交织的必然产物~

它预示着一个全新的智能时代即将到来,一个机器与人更紧密协作、共同进化的未来正在展开。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

灵犀X2 具身智能 机器人 智元 X-Lab
相关文章