2025-01-23 15:37 湖北
国产大模型又是热闹非凡的一周,提前过年,DeepSeek R1系列、Kimi 1.5多模态思考模型,阶跃星辰多模态Step-1o,智谱Agent GLM-PC等等,PaperAgent也做过分析,比如:
今天分享的是字节、清华联合发布并开源UI-TARS,它是新一代原生 GUI Agent模型,旨在利用类似人类的感知、推理和操作能力与图形用户界面 (GUI) 无缝交互。
与传统的模块化框架不同,UI-TARS 将所有关键组件(感知、推理、基础和记忆)集成到单个视觉语言模型 (VLM) 中,无需预定义的工作流程或手动规则即可实现端到端任务自动化,相关的模型也都有开源UI-TARS-2B、UI-TARS-7B、UI-TARS-72B。
https://github.com/bytedance/UI-TARS
https://hf-mirror.com/bytedance-research/UI-TARS-7B-gguf
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。