速递｜谷歌计划12月推出可自主操控浏览器的AI，可帮助收集研究、购买产品或预订航班

The Information 2024-10-27 13:13 北京

目前主要针对希望自动化日常网络任务的消费者。

据 The Information 报道，谷歌正在开发人工智能，该人工智能接管一个人的网络浏览器以完成任务，例如收集研究、购买产品或预订航班。该产品的代号为“ Jarvis 计划”，与 Anthropic 本周宣布的产品类似。

谷歌计划在 12 月预览该产品，也称为计算机使用代理，与其下一个旗舰 Gemini 大型语言模型的发布同时进行，该模型将为该产品提供支持，两位知情人士表示。

要点

谷歌即将推出的计算机使用代理旨在帮助消费者处理日常任务，与竞争对手专注于软件工程和其他工作任务的代理形成对比。

这些计划是暂定的，可能会有所变化。

发布 Jarvis 的时间表——它与“钢铁侠”中托尼·斯塔克的 AI 助手同名——显示出尽管谷歌研究人员发明了许多基础 AI 技术，谷歌仍在追赶初创公司的竞争对手。在另一个最近的例子中，谷歌仍在开发具有所谓推理能力的 AI，而 OpenAI 在 9 月推出了这一功能，此前他们聘请了一位在 2022 年帮助发明谷歌推理方法的研究人员。

因此，谷歌的 Gemini 聊天机器人严重落后于 ChatGPT，企业纷纷转向 OpenAI 的 LLMs，这使得谷歌的 Gemini 模型难以追赶。上周，为了提高谷歌在人工智能方面的开发效率，该公司将其 Gemini 聊天机器人的团队转移到了 DeepMind，即其主要的人工智能团队。《The Verge》周五报道，下一款 Gemini 模型将在 12 月发布。

AI 开发者将代理——能够在无需人类监督的情况下完成复杂任务的 AI 系统——视为行业的下一步。企业软件公司 Salesforce、Microsoft 和 Workday 正在竞相利用从 OpenAI 等公司购买的LLMs技术来开发代理。他们表示，这些代理将自动化简单的业务任务，尽管它们仍被视为主要是实验性的。

Anthropic 和 Google 正在尝试将代理概念向前推进一步，开发可以直接与个人的计算机或浏览器互动的软件。OpenAI 也在为此开发类似的软件，已经有大半年的时间了。

谷歌的代理与 Anthropic 推出的类似，通过捕捉计算机屏幕上频繁的截图来响应用户的命令，并在解释这些截图后采取行动，比如点击按钮或在文本框中输入内容，两位知情人士表示。

这两家公司代理之间存在关键差异。Anthropic 表示其产品可以操作安装在个人计算机上的不同应用程序，而 Jarvis 只能操作网络浏览器，并且已针对谷歌的 Chrome 浏览器进行了定制，这两位人士表示。

据三位人士透露，Jarvis 目前主要针对希望自动化日常网络任务的消费者。例如，在谷歌今年春季的开发者大会上，首席执行官 Sundar Pichai 建议未来版本的 Gemini 可以自主采取几项行动，帮助某人找回一双鞋子。

相比之下，Anthropic 将其代理定位为可以帮助软件工程师和其他办公室工作人员更快完成工作的工具，尽管它表示人们也可以将其用于个人任务，比如与朋友计划一天的旅行。

最初，谷歌可能会将 Jarvis 发布给一小部分早期测试者，以帮助识别和修复其缺陷，两位知情人士表示。

该代理目前运行相对较慢，因为根据两位对该产品有直接了解的人士的说法，该模型在采取每个行动之前需要思考几秒钟。

谷歌需要说服人们，它的人工智能代理能够安全地处理他们的个人数据，包括登录密码和信用卡信息，这些信息是它访问不同网站以完成任务或根据客户请求进行购买所必需的。LLMs 已知会产生错误的答案：例如，谷歌在其搜索引擎中使用的 LLM 驱动的对话答案，最初导致了许多明显的错误。

本文翻译自：The Information, https://www.theinformation.com/articles/google-preps-ai-that-takes-over-computers?rc=pbvtni

编译：ChatGPT

-----------END-----------

? 我们正在招募新一期的实习生

? 我们正在寻找有创造力的00后创业者

关于Z Potentials

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签