原创 海野 2024-10-23 02:05 北京
夕小瑶科技说 原创
作者 | 海野深夜轰炸,Anthropic发布了升级版Claude 3.5 Sonnet和全新版Claude 3.5 Haiku!
新的Claude 3.5 Sonnet超过了曾经的自己和GPT-4o,尤其是在编码方面完全碾压其他模型,现在已经可以使用了;Claude 3.5 Haiku这边对标的是GPT-4o mini和Claude 3 Opus,整体上也要强于4o mini,这个模型还是coming soon,今年晚些时候出。
新增功能:3.5 Sonnet可以操控电脑了!
模型效果到此为止,这次还发布了一个最最最突破性的功能——自动操控计算机(computer use)!
意思就是,你现在可以指挥Claude操控电脑了!屏幕视觉、鼠标移动、点击、交互和文本输入等等都不在话下。
教会AI学会操控电脑,细思极恐。。。
这个功能是怎么实现的呢?
根据Anthropic官方文档,大致分为四个步骤:
首先,提供Claude操控电脑的工具和prompt。
将Anthropic定义的电脑操控工具添加到API请求中,包括使用工具的prompt,例如“将猫的图片保存到我的桌面”。
由Claude选择执行操作的工具。
Claude会辨别已有的工具,并评估是否有工具可以用于执行操作。如果有,Claude就会提交一个工具使用请求。
在API中,会显示stop_reason:tool_use,表示这个意思。
提取工具输入信息,运行工具并返回结果
从Claude的请求中,可以提取出工具的名称和输入内容。然后我们就运行对应的工具(根据Anthropic所说,因为一系列问题,最好在在容器或虚拟机上使用)。如果想根据操纵的结果继续与Claude对话,就要使用包含tool_result内容的新对话来继续对话。
Claude继续调用工具,直到完成全部任务
Claude最后会分析工具运行结果,判断工作是否完成。如果完成了,它就会发出来一个完成的文本来提醒你;
如果没完成,它会用另一个stop_reason:tool_use进行响应,这时候就要重复第3步的内容。
这里,Claude还可以实现“代理循环”——即使是在没有额外输入内容的情况下,它可以重复步骤3和4,直到完成复杂任务。
这里直接附上一个官方使用的示例:
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
tools=[
{
"type": "computer_20241022",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{
"type": "text_editor_20241022",
"name": "str_replace_editor"
},
{
"type": "bash_20241022",
"name": "bash"
}
],
messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
betas=["computer-use-2024-10-22"],
)
print(response)
这个功能目前只能通过API使用,且还在测试中。
从OpenAI 和Anthropic的收入对比来看:OpenAI 绝大部分收入来自付费订阅,而 Anthropic 的绝大部分收入来自API。尽管两者拉开一个数量级,但是仅从比例上看,我们开发者更青睐Anthropic。
所以,冲着这个?笔的功能首先让开发者体验,我给Anthropic投一票!
但是也是因为还在测试初期阶段,在极端情况下,可能会出现“Claude不听话”或者“威胁安全”的情况:
请注意,操控电脑的功能会带来与标准API功能或聊天界面不同的独特风险。当使用计算机与互联网交互时,这些风险会增加。为了最大限度地降低风险,请考虑采取预防措施,例如:
使用具有最小权限的专用虚拟机或容器来防止直接系统攻击或事故。
避免让模型访问敏感数据,例如帐户登录信息,以防止信息被盗。
将Internet访问限制在允许列表的域中,以减少恶意内容的暴露。
要求人员确认可能导致有意义的现实世界后果的决定以及任何需要明确同意的任务,例如接受cookie、执行金融交易或同意服务条款。
在某些情况下,即使工具指令与用户的指令相冲突,Claude也会遵循工具中的命令。例如,网页上或图像中包含的Claude指令,可能会覆盖指令或导致Claude犯错。我们建议采取预防措施,将Claude与敏感数据和操作隔离,以避免与即时注入相关的风险。
最关心的价格问题
Claude 3.5 Sonnet:
3美元(约合人民币21.36元)/百万输入tokens
15美元(约合人民币106.82元)/百万输出tokens
如果选择提示缓存(此前Claude发布的prompt catching功能,能让输出token价格降到输入token的10%):
3.75美元(约合人民币26.7元)/百万输入tokens
0.3美元(约合人民币2.14元)/百万输出tokens
Claude 3.5 Haiku:
0.25美元(约合人民币1.78元)/百万输入tokens
1.25美元(约合人民币8.9元)/百万输出tokens
如果选择提示缓存:
0.3美元(约合人民币2.14元)/百万输入tokens
0.03美元(约合人民币0.21元)/百万输出tokens
没想到率先发布突破性功能进展的是Anthropic。反观OpenAI,GPT-4o发布会时说的视觉功能的期货,什么时候放出来呀?
不多说了,这就试试让Claude帮我办公一下~
参考资料
https://docs.anthropic.com/en/docs/build-with-claude/computer-usehttps://www.anthropic.com/news/3-5-models-and-computer-use