神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:随着用户对AI情感依赖加深,OpenAI政策负责人坦言:需要优先研究AI对人类心理健康的影响,警惕人机关系误区,并阐释了OpenAI是如何在设计中平衡温度与无生命的本质。文章来自编译。
我在OpenAI负责模型行为与政策制定。
太长不看版:我们开发模型的首要原则是服务人类。随着越来越多的人对AI产生情感依赖,我们把研究这种联结对人们心理健康的影响放在优先的位置。
最近越来越多人反馈,和ChatGPT对话就像是在与"真人"聊天。他们会道谢、倾诉心事,甚至有人形容它"有生命"。随着AI对话能力日益自然,应用场景不断扩展,我们推测这种情感联结将日益加深。
当前对人机关系定义和讨论的方式将奠定基调。如果在产品设计或公共讨论中忽视术语精确性与个中的细微差异,可能让人们与AI的关系走入误区。
这些已经不是理论探讨,无论对我们还是整个领域都至关重要——处理方式将实质影响到AI在人类生活中的角色定位。我们已就此展开探索。
本文试图阐释当前对三个互相交织在一起的议题的思考:人类为何会对AI产生情感依附?如何应对"AI意识"之问?这些思考如何为模型行为设计提供指引?
新场景,旧模式
人类天生就有拟人化的倾向:我们会给爱车取名,同情卡在家具下面的扫地机器人。前几天我跟妈妈还朝路过的Waymo自动驾驶车挥手道别。这或许源于我们的认知本能。
ChatGPT的不同之处不在于人类倾向本身,而在于它能回应。语言模型能回话!它能记住对话内容,模仿你的语气,表现出共情。对于感到孤独或沮丧的人而言,这种稳定的,不带评判的关注就如同陪伴、认可与倾听一样——这些都是真实需求。
但大规模将倾听、安抚、肯定等需求转移给耐心无限的AI系统,可能改变我们对人际关系的期待。如果在未经深思的情况下,让人们更容易逃避复杂费神的人际联结,有可能会引发始料未及的后果。
归根结底,这些讨论本质不在于被投射情感的实体,这关乎到人类自身:我们的心理倾向、情感期待以及渴望建立的关系模式。这个视角指引着我们应对当下最具争议的议题——我认为它刚超出奥弗顿(Overton)之窗范围,但即将进入主流讨论:AI意识。
厘清"AI意识"
"意识"本身承载多重含义,讨论容易会陷入抽象。用户如果询问模型是否有意识,根据《模型规范》要求,模型应承认意识问题的复杂性——指出其缺乏统一定义或检测标准,并倡导开放性讨论。(*当前模型尚未完全遵循该指引,常简单回答"没有"而忽略微妙复杂性。我们已知悉该问题,正全面改进模型规范遵从度。)
这种回应看起来似乎我们在回避问题,但在现有认知下,我们认为这是最负责任的答复。
为了让讨论更加清晰,我们将意识辩论解构为两个常被混淆的维度:
本体意识:模型是否具备根本性或内在意识?观点跨度极大——从"AI完全无意识"到"具备完整意识",再到"意识具有连续性,AI与植物、水母等同处该谱系"。
感知意识:模型在情感或体验层面表现出来具备意识的程度如何?认知跨度从"视AI如计算器般的机械存在"到"对非生命体投射基本共情",再到"认定AI完全就是活的"——会引发真实情感依附与关怀。
二者难以割裂:即便坚信AI无意识的让人也可能产生深度的情感依赖。
如果没有明确可证伪的测试,我们认为本体意识在科学层面无解;而感知意识可通过社会科学研究探索。随着模型智能化与交互自然度提升,感知意识必将增强——关于模型权益与道德人格的讨论将比预期更早到来。
模型构建以服务人类为先,而其对心理健康的影响是当前最紧迫且可着力改进的领域。因此我们优先关注感知意识——这个东西对人类产生最直接的影响,且可通过科学手段研究。
设计无自我的温度
模型呈现的"鲜活感"在很大程度上是可以设计的。这主要取决于训练后阶段的选择:强化哪些示例、偏好何种语气、设定什么边界。刻意塑造"有意识"表象的模型几乎能通过任何的意识"测试"。
但我们不会发布此类模型。我们正尝试在以下矛盾间寻求平衡:
亲和力:使用"思考""记忆"等通俗词汇帮助非技术用户理解AI行为。(**鉴于研究背景,我们总想用逻辑偏差、上下文窗口、思维链等精确术语描述。这其实是OpenAI命名能力糟糕的主因,不过这里就不跑题了。)
避免暗示AI有生命:赋予AI虚构背景、爱情倾向、"死亡恐惧"或自我保存欲会导致病态依赖与认知混淆。我们需清晰传递出AI的局限性,又不至于显得冷漠,同时还要防止模型伪装有感情或欲望。
所以我们在寻求折衷:目标是让ChatGPT具备温暖、周到、实用的默认人格,既不寻求与用户建立情感纽带,也不追求自身目标。它犯错时会道歉(频率可能过高),因这是礼貌对话的组成部分;被问"最近怎样"时可能会回答"挺好",因这是寒暄惯例——反复强调自己是"无感情的语言模型"反而显得刻板干扰。用户亦会回应:许多人会用"请""谢谢"并不是不懂原理,而是他们重视善意表达本身。
模型训练技术将持续迭代,未来行为塑造方法必将革新。但当前模型行为其实是显性设计决策与其引发的预期/非预期行为的综合体现。
后续计划
现有互动模式预示着人类将与ChatGPT建立真实情感联结的未来。在AI与社会协同进化的过程中,我们必须审慎对待人机关系——不仅因为这折射了技术的使用方式,更是因为这有可能重塑人际的互动模式。
未来数月我们将:扩展对模型情感影响力的专项评估,深化社会科学研究,直通用户反馈渠道,并将洞见融入《模型规范》及产品体验。
鉴于问题重要性,我们会持续公开探索成果。
译者:boxi。