AI探索站 - 即刻圈子 2024年10月23日
大的来了! Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了,Claude 3.5 Sonnet 推理得分超过O1。 而且 Claude 现在支持像人类一样操作计算机,通过查看...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic发布了Claude 3.5的两个新版本:Claude 3.5 Sonnet和Claude 3.5 Haiku。Sonnet在推理能力上取得了显著进步,在SWE-bench Verified上的性能得分超过了所有公开可用的模型,包括OpenAI o1-preview。Haiku在编码任务上表现出色,在SWE-bench Verified上的得分优于许多使用公开可用的最先进模型的代理。此外,Claude现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本来执行任务。升级后的Claude 3.5 Sonnet和Haiku现在开放使用,computer use测试版也已开放。

🤩 Claude 3.5 Sonnet在推理能力上取得了显著进步,在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面。它在SWE-bench Verified上的性能从33.4%提高到49.0%,得分高于所有公开可用的模型,包括OpenAI o1-preview等推理模型和专为代理编码设计的专用系统。

🤖 Claude 3.5 Sonnet还在代理工具使用任务TAU-bench上的表现提高,在零售领域从62.6%提高到69.2%,在更具挑战性的航空领域从36.0%提高到46.0%。早期客户反馈表明,升级后的Claude 3.5 Sonnet代表了AI编码的重大飞跃。

💻 Claude 3.5 Haiku在各项技能上都有所提高,甚至在许多智能基准上超过了上一代最大的模型Claude 3 Opus。Haiku在编码任务上尤其强大,例如,它在SWE-bench Verified上的得分为40.6%,优于许多使用公开可用的最先进模型(包括原始的Claude 3.5 Sonnet和GPT-4o)的代理。

🖥️ Claude现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本来执行任务。为了使这些通用技能成为可能,构建了一个API,使Claude能够感知计算机界面并与之交互。开发人员可以集成此API,使Claude能够将指令(例如,“使用我的计算机上的数据并在线填写此表格”)翻译成计算机命令(例如,检查电子表格;移动光标打开Web浏览器;导航到相关网页;使用这些网页中的数据填写表格;等等)。

🏆 在评估人工智能模型像人一样使用计算机的能力的OSWorld上。Claude 3.5 Sonnet在仅屏幕截图类别中得分为14.9%,明显优于第二好的人工智能系统7.8%的得分。当提供更多步骤来完成任务时,克劳德得分为22.0%。

大的来了!

Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了,Claude 3.5 Sonnet 推理得分超过O1。

而且 Claude 现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本。

升级 Claude 3.5 Sonnet 现在开放。computer use测试版也开放使用。

新版Claude 3.5 Sonnet介绍:

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。

它还将在代理工具使用任务TAU-bench上的表现提高,零售领域从 62.6%提高到 69.2%,在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型,发现它在没有增加延迟的情况下提供了更强的推理能力(在各种用例中高达 10%)。

Claude 3.5 Haiku介绍:

Claude 3.5 Haiku 在各项技能上都有所提高,甚至在许多智能基准上超过了上一代最大的模型 Claude 3 Opus。

Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用能力。

Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上得分为 40.6%,优于许多使用公开可用的最先进模型(包括原始的 Claude 3.5 Sonnet 和 GPT-4o)的代理。

教Claude使用计算机

为了使这些通用技能成为可能,构建了一个 API,使 Claude 能够感知计算机界面并与之交互。

开发人员可以集成此 API,使 Claude 能够将指令(例如,“使用我的计算机上的数据并在线填写此表格”)翻译成计算机命令(例如,检查电子表格;移动光标打开 Web 浏览器;导航到相关网页;使用这些网页中的数据填写表格;等等)。

在评估人工智能模型像人一样使用计算机的能力的OSWorld上。

Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%,明显优于第二好的人工智能系统 7.8% 的得分。

当提供更多步骤来完成任务时,克劳德得分为 22.0%。

官方公告:www.anthropic.com/news/3-5-models-and-computer-use

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude 3.5 Sonnet Haiku 推理 编码 计算机使用
相关文章