大的来了！ Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了，Claude 3.5 Sonnet 推理得分超过O1。而且 Claude 现在支持像人类一样操作计算机，通过查看...

AI探索站 - 即刻圈子 2024年10月23日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Anthropic发布了Claude 3.5的两个新版本：Claude 3.5 Sonnet和Claude 3.5 Haiku。Sonnet在推理能力上取得了显著进步，在SWE-bench Verified上的性能得分超过了所有公开可用的模型，包括OpenAI o1-preview。Haiku在编码任务上表现出色，在SWE-bench Verified上的得分优于许多使用公开可用的最先进模型的代理。此外，Claude现在支持像人类一样操作计算机，通过查看屏幕、移动光标、单击按钮和键入文本来执行任务。升级后的Claude 3.5 Sonnet和Haiku现在开放使用，computer use测试版也已开放。

🤩 Claude 3.5 Sonnet在推理能力上取得了显著进步，在行业基准上显示出广泛的改进，尤其是在代理编码和工具使用任务方面。它在SWE-bench Verified上的性能从33.4%提高到49.0%，得分高于所有公开可用的模型，包括OpenAI o1-preview等推理模型和专为代理编码设计的专用系统。

🤖 Claude 3.5 Sonnet还在代理工具使用任务TAU-bench上的表现提高，在零售领域从62.6%提高到69.2%，在更具挑战性的航空领域从36.0%提高到46.0%。早期客户反馈表明，升级后的Claude 3.5 Sonnet代表了AI编码的重大飞跃。

💻 Claude 3.5 Haiku在各项技能上都有所提高，甚至在许多智能基准上超过了上一代最大的模型Claude 3 Opus。Haiku在编码任务上尤其强大，例如，它在SWE-bench Verified上的得分为40.6%，优于许多使用公开可用的最先进模型（包括原始的Claude 3.5 Sonnet和GPT-4o）的代理。

🖥️ Claude现在支持像人类一样操作计算机，通过查看屏幕、移动光标、单击按钮和键入文本来执行任务。为了使这些通用技能成为可能，构建了一个API，使Claude能够感知计算机界面并与之交互。开发人员可以集成此API，使Claude能够将指令（例如，“使用我的计算机上的数据并在线填写此表格”）翻译成计算机命令（例如，检查电子表格；移动光标打开Web浏览器；导航到相关网页；使用这些网页中的数据填写表格；等等）。

🏆 在评估人工智能模型像人一样使用计算机的能力的OSWorld上。Claude 3.5 Sonnet在仅屏幕截图类别中得分为14.9%，明显优于第二好的人工智能系统7.8%的得分。当提供更多步骤来完成任务时，克劳德得分为22.0%。

大的来了！

Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了，Claude 3.5 Sonnet 推理得分超过O1。

而且 Claude 现在支持像人类一样操作计算机，通过查看屏幕、移动光标、单击按钮和键入文本。

升级 Claude 3.5 Sonnet 现在开放。computer use测试版也开放使用。

新版Claude 3.5 Sonnet介绍：

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进，尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。

它还将在代理工具使用任务TAU-bench上的表现提高，零售领域从 62.6%提高到 69.2%，在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明，升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型，发现它在没有增加延迟的情况下提供了更强的推理能力（在各种用例中高达 10%）。

Claude 3.5 Haiku介绍：

Claude 3.5 Haiku 在各项技能上都有所提高，甚至在许多智能基准上超过了上一代最大的模型 Claude 3 Opus。

Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用能力。

Haiku 在编码任务上尤其强大。例如，它在 SWE-bench Verified 上得分为 40.6%，优于许多使用公开可用的最先进模型（包括原始的 Claude 3.5 Sonnet 和 GPT-4o）的代理。

教Claude使用计算机

为了使这些通用技能成为可能，构建了一个 API，使 Claude 能够感知计算机界面并与之交互。

开发人员可以集成此 API，使 Claude 能够将指令（例如，“使用我的计算机上的数据并在线填写此表格”）翻译成计算机命令（例如，检查电子表格；移动光标打开 Web 浏览器；导航到相关网页；使用这些网页中的数据填写表格；等等）。

在评估人工智能模型像人一样使用计算机的能力的OSWorld上。

Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%，明显优于第二好的人工智能系统 7.8% 的得分。

当提供更多步骤来完成任务时，克劳德得分为 22.0%。

官方公告：www.anthropic.com/news/3-5-models-and-computer-use

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签