PaperAgent 01月26日
字节、清华开源UI-TARS:像人一样操控电脑的端到端Agent
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动与清华大学联合发布并开源了UI-TARS,这是一款新一代原生GUI Agent模型。它将感知、推理、基础和记忆等关键组件集成到单个视觉语言模型(VLM)中,实现了端到端的任务自动化,无需预定义的工作流程或手动规则。该模型旨在利用类似人类的感知、推理和操作能力与图形用户界面(GUI)无缝交互。开源了UI-TARS-2B、UI-TARS-7B、UI-TARS-72B等多个版本,为GUI自动化领域提供了新的解决方案。

💡UI-TARS是字节跳动与清华大学联合发布并开源的新一代原生GUI Agent模型,它旨在实现与图形用户界面(GUI)的无缝交互。

🧠与传统模块化框架不同,UI-TARS将感知、推理、基础和记忆等关键组件集成到单个视觉语言模型(VLM)中,无需预定义的工作流程或手动规则,实现端到端任务自动化。

🤖UI-TARS模型具有类似人类的感知、推理和操作能力,能够更好地理解和操作GUI界面,并开源了UI-TARS-2B、UI-TARS-7B、UI-TARS-72B等多个版本。

🔗该项目在GitHub上开源,并提供了Hugging Face镜像,方便研究人员和开发者使用,为GUI自动化领域提供了新的研究方向和实践工具。

2025-01-23 15:37 湖北

国产大模型又是热闹非凡的一周,提前过年,DeepSeek R1系列、Kimi 1.5多模态思考模型,阶跃星辰多模态Step-1o,智谱Agent GLM-PC等等,PaperAgent也做过分析,比如:

Kimi思考模型k1.5是怎么练成的?细节曝光

今天分享的是字节、清华联合发布并开源UI-TARS,它是新一代原生 GUI Agent模型,旨在利用类似人类的感知、推理和操作能力与图形用户界面 (GUI) 无缝交互。

与传统的模块化框架不同,UI-TARS 将所有关键组件(感知、推理、基础和记忆)集成到单个视觉语言模型 (VLM) 中,无需预定义的工作流程或手动规则即可实现端到端任务自动化,相关的模型也都有开源UI-TARS-2BUI-TARS-7B、UI-TARS-72B。

 

https://github.com/bytedance/UI-TARShttps://hf-mirror.com/bytedance-research/UI-TARS-7B-gguf

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UI-TARS GUI Agent 视觉语言模型 自动化 开源
相关文章