Z Potentials 05月18日 13:43
Z Product|全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Browser Use 是一款开源产品,旨在搭建 LLM 与 Web 网站之间的桥梁,使 AI Agent 能够像真实用户一样操作浏览器,自动完成任务。它支持 AI Agent 自动轮换、持久会话,并允许用户按需运行任意数量的并行任务。Browser Use 应用广泛,包括登录自动化、数据提取、QA 测试和 CRM 集成等。自推出以来,Browser Use 在 GitHub 上获得超过 60k star,是增长最快的开源人工智能项目之一,并获得了 1700 万美元的种子轮融资。

💡Browser Use 旨在解决 AI Agent 访问和操作浏览器时面临的挑战,如网页结构频繁变化、机器人检测以及抓取时的速率限制等问题。它通过将 AI Agent 与网页连接,实现对浏览器的自动化操作,支持 AI Agent 自动轮换,单次登录即可实现持久会话。

⚙️Browser Use 具有多维度功能,包括视觉+HTML 信息提取、多重标签管理、要素追踪、自定义操作和自我纠正等。它兼容所有 LangChain LLM,如 GPT-4、Claude 3 和 Llama 2,并且在 WebVoyager 基准测试中取得了 89.1% 的成功率,在业界遥遥领先。

🛡️Browser Use 通过防止模型看到实际密码来安全地处理敏感信息,并与 Laminar 进行原生集成,以便同步追踪浏览器操作的数据。用户可以查看浏览器会话记录和 Agent 的执行步骤,从而实现流程透明可追溯。

👨‍💻Browser Use 由 Magnus Müller 和 Gregor Zunic 两位苏黎世联邦理工学院的学生创立。该项目最初只是午餐间的头脑风暴,后来发展成为一个席卷全球的开源项目。目前,Y Combinator 冬季批次中有 20 多家公司使用 Browser Use 来满足自己的需求。

Z Potentials 2025-05-18 11:43 北京

Browser Use在LLM与web网站之间搭建桥

Z Highlights

01 Manus背后“黑科技”,让Agent轻松操作浏览器

如果一个基于LLM的Agent想访问或者操作浏览器,往往面临一些挑战:

2025年初,随着Manus的火爆,其背后的“黑科技”Browser Use也同样引起了人们的关注。Browser Use专为解决上述痛点而设计,强调将AI agents与网页连接,实现对浏览器的自动化操作。它支持AI agents自动轮换,单次登录即可实现持久会话,并允许你按需运行任意数量的并行任务。在开源方面,Browser Use基于MIT开源许可,支持自定义,完全免费且高度灵活,用户可以自由接入任何模型。据TechCrunch报道,Browser Use是Manus用来执行各种任务的组件之一,例如点击网站菜单和填写表格。

此前,Research and Markets预测,AI agents的市场将从2024年的51亿美元增长到2030年的471亿美元;德勤数据显示,到2027年,将有一半左右的公司会部署Agents,以辅助完成不同业务。Bowser Use创始人对AI agents与浏览器自动化发展的前景同样颇为乐观,在同TechCrunch的访谈中公司创始人Zunic表示,“我们希望打造一个基础层,让所有人都能在此之上构建自己的浏览器智能体,到2025年年底,网页上agents的数量或将高于人类。”

02 准确率业界领先,流程透明可追踪

多维度功能,增长持续

Browser Use的主要功能包括:

图片来源:https://www.star-history.com/

自推出以来,Browser Use发展迅速,GitHub上获得超过60k star,是增长最快的开源人工智能项目之一。15,000多名开发人员在积极使用Browser Use,并积极在技术社区中贡献idea和解决方案;目前,Browser Use的应用案例范围广泛,包括从登录自动化和数据提取到QA测试和CRM集成等各层次任务。Browser Use因为Manus的出圈而被广泛传播,且其增长势头持续至今。

准确率业界领先

2024年12月,据官网消息,Browser Use在WebVoyager基准测试中的表现在业界遥遥领先,在586项不同的网络任务中取得了89.1%的成功率。

图片来源:Browser Use官网

在不同领域中,Browser Use均可以出色地在浏览器上完成任务,比如,在Huggingface网站上,AI自动化完成任务的成功率可达100%,即便AI在Booking.com上自动化“表现不佳”,其成功率依然达到了80%。据官网报道,Browser Use可以涵盖多种日常任务,包括在Google Docs中编写文档、查找航班、投递简历等常见的生活场景。

图片来源:Browser Use官网

回避敏感数据,操作流程透明可追溯

让AI agents自动化处理任务面临的风险之一便是如何保障数据安全,Browser Use通过防止模型看到实际密码来安全地处理敏感信息。据官方技术文档介绍,在处理密码等敏感信息时,用户可以使用sensitive_data这一参数来防止模型看到实际值,同时仍允许模型在其作中引用这些值。

此外,为了同步追踪浏览器操作的数据,Browser Use与Laminar进行了原生集成,Laminar是用于跟踪、评估和标记AI agents的开源平台,用户只需在代码项目顶部初始化Laminar,浏览器使用和会话录制都会被自动跟踪。当用户选择跟踪时,可以看到浏览器会话记录和agents的执行步骤,浏览器会话的时间轴与代理执行步骤同步,在跟踪视图中,用户还可以查看agents的当前步骤、它使用的工具以及工具的输入和输出。

03 从午餐头脑风暴到席卷全球黑科技

左侧为Magnus Müller,右侧为Gregor Zunic

图片来源:Browser Use官网

Browser Use两位创始人Magnus Müller和Gregor Zunic来自瑞士苏黎世联邦理工学院,二人在其数据科学硕士项目期间相识。2024年,两人一同在苏黎世联邦理工学院的学生项目之家加速器(Student Project House accelerator)中推出了Browser Use的原型。在同TechCrunch的访谈中,Zunic回忆,“最初只是几次午饭间的随意头脑风暴,后来变成了一个挑战——我们来做个小项目,发到 Hacker News 上,看看会发生什么。”Zunic 说,“我们花了四天时间做出了一个MVP,上线之后——砰,直接登顶第一。之后的发展就像坐上了火箭一样。”

“许多AI agents依赖基于视觉的系统,并尝试通过屏幕截图浏览网站,在此过程中,往往就会出错……另外一些网站则常常会更改自己的运作方式(比如LinkedIn),因此agents也经常会失败。”Müller说到,“我们将网站转换为AI可以理解的内容,这种方法意味着我们可以以更便宜的成本一次又一次地运行相同的任务。越来越多的AI公司希望让他们的agents更优雅地与网站交互,Müller认为浏览器使用可以成为满足这一需求的“基本层”。他补充说,目前Y Combinator冬季批次中有20多家公司使用 Browser Use 来满足自己的需求。

Magnus Müller预计在2025年8月完成学业,除了关注AI与浏览器交互,他还深耕机器学习相关技术,并且在自动化与机械制造、交通管理等领域有兼职或是实习经历。2022-2024年,他在GreenWAI担任创始人兼CEO,该公司利用“浮动汽车数据”(Floating Car Data)来优化红绿灯控制,替代昂贵的传感器系统,从而大幅减少二氧化碳排放和车辆等待时间;2022-2023年,他在Aucos AG这家公司担任研究与发展领域的AI工程师,他的研究方向包括基于图像神经网络和深度强化学习的优化调度问题研究、基于Transformer的黑箱模拟与数字孪生技术、以及利用可视化模拟技术理解复杂流程等;2022年9月到12月,他还在Cambridge Care有过一段短暂的实习经历,这段实习经历中,他主要关注Temporal Fusion Transformer如何在动态知识图谱中进行时间序列预测。

Magnus Müller近三年实习与工作经历

图片来源:LinkedIn

另一位创始人Gregor Zunic于2024年12月从苏黎世联邦理工大学毕业,在此之前,他专注于利用AI技术来优化不同群体的工作体验。除了今年名声鹊起的Browser Use,2023年-2024年,他曾在Spexia担任联合创始人,专注于帮助创业者解决搜索引擎优化方面的诉求;同期,他还是Profaile公司的联合创始人,该公司专注于企业家和消费者提供AI解决方案,同时还会向青年人传授技术与创业相关的知识;2022-2024年期间,他和其他朋友共同成立了一家名为Real Fake Photo的公司,产品可以实现一键把休闲风格的自拍照转化成专业的职场头像。

Gregor Zunic近三年创立的公司

图片来源:LinkedIn

04 种子轮筹资1700万美元,Felicis Ventures领投

图片来源:LinkedIn

Browser Use为Y Combinator2025年冬季项目之一。2025年3月,Browser Use在官网上宣布获得1700万种子轮融资。本轮融资由Felicis Ventures领投,Y Combinator、A Capital、Nexus Ventures、Paul Graham、Liquid2、SV Angel、Pioneer Fund等机构跟投。产品创始人之一Müller在接受TechCrunch访谈时补充说,当前Y Combinator冬季批次中有20多家公司使用Browser Use来满足自己的需求。

Felicis Ventures称,Browser Use正在打造AI agents基础设施中最关键的一块:网页交互能力。它通过提取HTML和页面元素,大大简化了代理与网站的交互过程,同时可以按需重复执行工作流。它支持多步骤任务、持久会话(即保留登录状态等信息),并能在网页布局变化时进行智能自我纠错,与依赖视觉识别(vision-based)的系统不同,后者每运行一次就需要耗费昂贵的计算资源,Browser Use的代理可以以确定性的方式重复执行任务——这大幅提升了可靠性、速度和效率。

Elena Chen亦有贡献

References:

https://www.ycombinator.com/companies/browser-use

https://browser-use.com/posts/sota-technical-report

https://techcrunch.com/2025/03/12/browser-use-one-of-the-tools-powering-manus-is-also-going-viral/

https://www2.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2025/autonomous-generative-ai-agents-still-under-development.html

https://techcrunch.com/2025/03/23/browser-use-the-tool-making-it-easier-for-ai-agents-to-navigate-websites-raises-17m/

https://docs.browser-use.com/introduction

https://docs.browser-use.com/customize/sensitive-data

https://docs.browser-use.com/development/observability

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Browser Use AI Agent 浏览器自动化 开源项目
相关文章