IT之家 04月18日 07:59
字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动豆包大模型团队发布并开源了UI-TARS-1.5,这是一款基于视觉-语言模型构建的多模态智能体。UI-TARS-1.5通过强化学习提升了模型的高阶推理能力,能够在虚拟世界中高效执行任务,实现精准GUI操作。该模型在视觉感知、System 2推理机制、统一动作建模和自我演化训练范式四个维度进行了技术探索。团队还展示了以游戏为载体来增强基础模型的推理能力的新愿景,旨在提升模型的通用能力。

👁️ UI-TARS-1.5是基于字节跳动提出的原生智能体方案UI-TARS构建的,通过强化学习增强模型推理能力,使其在“行动”前先进行“思考”。

🎮 团队展示了以游戏为载体增强基础模型推理能力的新愿景,游戏依赖直观、常识性推理,是评估和提升未来模型通用能力的理想测试场景。

🖼️ UI-TARS-1.5具备真实操作电脑和手机系统的能力,可操控浏览器,完成复杂交互任务,实现精准GUI操作。这得益于四个维度的技术探索:视觉感知增强、System 2 推理机制、统一动作建模和自我演化训练范式。

🧠 在System 2推理机制方面,模型在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。

🔄 通过自动化的交互轨迹采集与反思式训练,UI-TARS-1.5模型能够持续从错误中改进,适应复杂环境变化。

IT之家 4 月 18 日消息,IT之家从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

有关的链接如下:

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”

该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UI-TARS-1.5 多模态智能体 开源 字节跳动 人工智能
相关文章