字节、清华开源UI-TARS：像人一样操控电脑的端到端Agent

PaperAgent 01月26日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

字节跳动与清华大学联合发布并开源了UI-TARS，这是一款新一代原生GUI Agent模型。它将感知、推理、基础和记忆等关键组件集成到单个视觉语言模型(VLM)中，实现了端到端的任务自动化，无需预定义的工作流程或手动规则。该模型旨在利用类似人类的感知、推理和操作能力与图形用户界面(GUI)无缝交互。开源了UI-TARS-2B、UI-TARS-7B、UI-TARS-72B等多个版本，为GUI自动化领域提供了新的解决方案。

💡UI-TARS是字节跳动与清华大学联合发布并开源的新一代原生GUI Agent模型，它旨在实现与图形用户界面(GUI)的无缝交互。

🧠与传统模块化框架不同，UI-TARS将感知、推理、基础和记忆等关键组件集成到单个视觉语言模型(VLM)中，无需预定义的工作流程或手动规则，实现端到端任务自动化。

🤖UI-TARS模型具有类似人类的感知、推理和操作能力，能够更好地理解和操作GUI界面，并开源了UI-TARS-2B、UI-TARS-7B、UI-TARS-72B等多个版本。

🔗该项目在GitHub上开源，并提供了Hugging Face镜像，方便研究人员和开发者使用，为GUI自动化领域提供了新的研究方向和实践工具。

2025-01-23 15:37 湖北

国产大模型又是热闹非凡的一周，提前过年，DeepSeek R1系列、Kimi 1.5多模态思考模型，阶跃星辰多模态Step-1o，智谱Agent GLM-PC等等，PaperAgent也做过分析，比如：

Kimi思考模型k1.5是怎么练成的？细节曝光

今天分享的是字节、清华联合发布并开源UI-TARS，它是新一代原生 GUI Agent模型，旨在利用类似人类的感知、推理和操作能力与图形用户界面 (GUI) 无缝交互。

与传统的模块化框架不同，UI-TARS 将所有关键组件（感知、推理、基础和记忆）集成到单个视觉语言模型 (VLM) 中，无需预定义的工作流程或手动规则即可实现端到端任务自动化，相关的模型也都有开源UI-TARS-2B、UI-TARS-7B、UI-TARS-72B。

https://github.com/bytedance/UI-TARShttps://hf-mirror.com/bytedance-research/UI-TARS-7B-gguf

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签