Claude 3.5 Sonnet升级！Haiku也来了！开发者可以率先使用「AI操控电脑」新功能

原创海野 2024-10-23 02:05 北京

夕小瑶科技说原创
作者 | 海野深夜轰炸，Anthropic发布了升级版Claude 3.5 Sonnet和全新版Claude 3.5 Haiku！

新的Claude 3.5 Sonnet超过了曾经的自己和GPT-4o，尤其是在编码方面完全碾压其他模型，现在已经可以使用了；Claude 3.5 Haiku这边对标的是GPT-4o mini和Claude 3 Opus，整体上也要强于4o mini，这个模型还是coming soon，今年晚些时候出。

新增功能：3.5 Sonnet可以操控电脑了！

模型效果到此为止，这次还发布了一个最最最突破性的功能——自动操控计算机（computer use）！

意思就是，你现在可以指挥Claude操控电脑了！屏幕视觉、鼠标移动、点击、交互和文本输入等等都不在话下。

教会AI学会操控电脑，细思极恐。。。

这个功能是怎么实现的呢？

根据Anthropic官方文档，大致分为四个步骤：

首先，提供Claude操控电脑的工具和prompt。

将Anthropic定义的电脑操控工具添加到API请求中，包括使用工具的prompt，例如“将猫的图片保存到我的桌面”。

由Claude选择执行操作的工具。

Claude会辨别已有的工具，并评估是否有工具可以用于执行操作。如果有，Claude就会提交一个工具使用请求。

在API中，会显示stop_reason:tool_use，表示这个意思。

提取工具输入信息，运行工具并返回结果

从Claude的请求中，可以提取出工具的名称和输入内容。然后我们就运行对应的工具（根据Anthropic所说，因为一系列问题，最好在在容器或虚拟机上使用）。如果想根据操纵的结果继续与Claude对话，就要使用包含tool_result内容的新对话来继续对话。

Claude继续调用工具，直到完成全部任务

Claude最后会分析工具运行结果，判断工作是否完成。如果完成了，它就会发出来一个完成的文本来提醒你；

如果没完成，它会用另一个stop_reason:tool_use进行响应，这时候就要重复第3步的内容。

这里，Claude还可以实现“代理循环”——即使是在没有额外输入内容的情况下，它可以重复步骤3和4，直到完成复杂任务。

这里直接附上一个官方使用的示例：


import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20241022",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20241022",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20241022",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
    betas=["computer-use-2024-10-22"],
)
print(response)