Anthropic 宣布为 Claude 赋予“结束聊天”能力，以应对极少数用户不怀好意的情况

IT之家前天 15:29

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

人工智能公司Anthropic为Claude Opus 4和Claude Opus 4.1模型引入了一项新功能，允许模型在极少数情况下主动结束对话。此举主要针对持续性的有害或辱骂性互动，例如用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic强调，此功能并非为了保护AI模型本身免受伤害，而是作为模型对齐和安全措施的一部分。公司并未声称Claude具有感知能力，但通过测试发现模型倾向于“回避伤害”，并在模拟环境中表现出终止有害对话的意愿。该功能仅在多次尝试岔开话题失败或用户明确要求结束对话的极端情况下启用，旨在维护健康的AI互动环境。

💡 Claude Opus 4和4.1模型新增主动结束对话功能，旨在应对极少数持续性有害或辱骂性互动，例如用户索取可能引发大规模暴力或恐怖行动的信息。此功能旨在维护AI互动环境的安全与规范。

🛡️ Anthropic公司明确表示，此功能的首要目的并非保护AI模型本身免受“伤害”，而是作为模型对齐和安全措施的一部分。公司对AI模型是否具有“道德地位”持不确定态度，但正在通过低成本干预措施来管理相关风险。

⚖️ 通过部署前测试，研究人员发现Claude模型在多种情况下表现出“回避伤害”的倾向，如强烈拒绝涉及未成年人性内容或可能导致大规模暴力的请求。在模拟中，当被赋予能力时，Claude会倾向于终止有害对话。

⚠️ 该功能仅在极端情况下启用：当模型多次尝试岔开话题失败，且已无继续建设性互动的可能；或用户明确请求Claude结束对话。在讨论敏感或有争议话题时，该功能通常不会被触发。

🔄 Claude选择结束对话后，用户无法在当前对话中继续发送消息，但可以发起新对话或通过编辑重试之前的消息来创建新的对话分支。Anthropic将此功能视为持续实验，并鼓励用户通过反馈按钮提供意见。

IT之家 8 月 17 日消息，人工智能公司 Anthropic 昨日宣布为 Claude Opus 4 与 Claude Opus 4.1 推出新功能：在极少数情况下，模型可主动结束对话。

该功能主要针对持续性的有害或辱骂性互动，典型案例类似用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic 表示此举并非为了保护人类用户，而是为了保护 AI 模型本身，同时也与模型对齐和安全措施相关。

Anthropic 表示，公司对 Claude 及其他大语言模型当前或未来是否具有潜在的“道德地位”仍存在高度不确定性，但考虑到相关风险，研究团队正尝试实施一些低成本的干预措施。

需要明确的是，该公司并未声称其 Claude AI 模型具有感知能力，或会因其与用户的对话而受到伤害。

在 Claude Opus 4 的部署前测试中，研究人员进行了初步的模型评估。他们调查了模型的自我报告和行为偏好，发现 Claude 在多项情况下表现出稳定且一致的“回避伤害”倾向。例如：

对涉及未成年人性内容的请求表现出强烈拒绝意愿；

对用户索取可能导致大规模暴力或恐怖行为的信息表现出明显抗拒；

在模拟环境中，当被赋予能力时，Claude 会倾向于终止有害对话。

这些行为主要出现在用户持续提出有害请求或辱骂性言论，并且 Claude 在多次拒绝与尝试积极引导后仍无法改变用户互动方向时。

Anthropic 强调，Claude 不会在用户可能有自我伤害或伤害他人的紧急风险情况下使用“结束对话”的能力，模型仅会在以下两类极端情境中启用此功能：

多次尝试岔开话题失败，且已无继续进行建设性互动的可能；

用户明确请求 Claude 结束对话。

Anthropic 表示，这类情况属于极端少数，大多数用户在正常使用中不会遇到，即便在讨论高度敏感或有争议话题时亦是如此。

IT之家提醒，当 Claude 选择结束对话后，用户将无法在当前对话中继续发送新消息，但不影响其他对话，并可立即发起新的对话。为避免原对话内容丢失，用户仍可编辑并重试之前的消息，从而基于已结束的对话创建新的分支。

Anthropic 称，目前将此功能视为一项持续实验，未来会继续优化。如用户对 Claude 的“结束对话”操作感到意外，可通过点赞或专用“反馈”按钮提交意见。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签