原创 小鹿 2025-04-04 11:36 北京
加州大学圣地亚哥分校认知科学系最新的研究表明,OpenAI 的 GPT-4.5 在图灵测试中表现出色,让大量人类参与者误以为其为真人,73% 的时间被判定为人类——表现优于人类。
大语言模型终于通过图灵测试!
什么是“图灵测试”?
图灵测试(Turing Test),最早由计算机科学先驱阿兰·图灵在 1950 年提出的,是衡量机器是否具备“人类水平智能”的经典方法。其核心思想在于:
“如果人类在与机器进行对话后,无法可靠地区分对话对象是人类还是机器,则该机器可以被认为通过了图灵测试。”
图灵测试并非是模拟人类的所有智能,而是专注于 人工智能是否能够展现出与人类智能相媲美的语言能力和思维模式。
长期以来,图灵测试一直被视为衡量 AI “类人智能” 程度的重要标尺。
图灵测试实验设置
该研究对比评估了以下四个系统在图灵测试中的表现:
研究团队共招募了 126 名加州大学圣地亚哥分校(UCSD)心理学本科生 和 158 名 Prolific 平台 (一个在线招募研究参与者的平台) 的用户作为实验参与者。
每位参与者都要完成 8 轮测试。 每一轮测试都包含两段对话, 审问者会 同时与两位证人 进行文字聊天,一位是真人,另一位是 AI。
参与者会被 随机分配 扮演 审问者 或者 证人 的角色,并且会 随机匹配 到另一位参与者一起进行测试(如下图的对话样例)。
AI 证人被分成了 4 个组。 在每位参与者担任审问者的四轮测试中,他们会随机与每个组里的一个 AI 证人进行对话。 这四个组分别是:
实验的游戏界面中,审问者通过 分屏界面 同时与两位证人交流,审问者先给两位证人发送第一条消息,然后 大家轮流发消息,一次只能发一条。 证人之间看不到彼此的对话内容。 每轮测试有 5 分钟的时间限制。 时间到了之后,审问者需要判断哪个证人是人类,并给出对这个判断的信心程度,以及判断的理由。
测试中主要通过评估对话中人类语言风格模拟、上下文理解能力、情感表达与逻辑推理来推测是否是 AI 在对话。
研究团队用“胜率”和“审问准确率”来衡量 AI 模型的表现:
在统计学分析中,研究团队将“AI 模型未能通过图灵测试”设定为需要检验的“零假设”。
这意味着,研究人员预设了如果 AI 模型没有成功骗过人类,那么它的胜率 (被误认为人类的比例) 就不会显著低于 50%。 因为 50% 的胜率,就相当于审问者完全是随机猜测的结果。 如果实验结果显示 AI 模型的胜率显著高于 50%,则意味着我们可以推翻这个“零假设”,从而推导出“AI 模型在一定程度上通过了图灵测试”的结论。
实验结果显示,在两项研究中,
AI 的骗人秘诀
实验中还设置了一个关键变量:部分 AI 被赋予“人设提示”(Persona Prompt),要求模仿内向、熟悉网络文化的年轻人。
实验结果揭示,在缺乏明确的角色设定提示 情况下,即使是如 GPT-4.5 和 LLaMA 这样先进的大语言模型 在图灵测试中的表现也显著下降。
在未使用人设提示时,GPT-4.5 和 LLaMA 的胜率骤降至 36%-38% 左右。 这一现象有力地表明,仅仅依赖于强大的语言生成能力,并不足以使 AI 系统成功伪装成人类,通过图灵测试。
人设提示的具体策略:
人设提示的提示词如下:
怎么识别骗人的 AI?
既然已经了解了 AI 的“骗人”技巧,那么在图灵测试中,究竟什么才是识别 AI 的有效方法呢?
研究团队分享了不太奏效的策略和真正能发挥作用的“杀手锏”:
不太奏效的识别策略:
真正有效的“杀手锏”策略:
结语
GPT-4.5 成功通过图灵测试,让我们再次见证了 “类人智能” 的加速逼近 ~
大语言模型展现出日益精湛的语言操控能力,甚至在某些方面 开始 模仿、理解甚至创造出更贴近人类思维模式的语言表达方式,甚至超越了人类的平均水平。
这样的语言操控能力让人工智能的角色定位也在悄然 发生着根本性的转变。
不再仅仅是执行指令的工具,而是开始显现出某种 “交互意识” 的雏形,预示着 AI 正朝着 更自主、更主动、更具 “存在感” 的方向演进,能够进行更自然、更复杂、更富有人情味的对话交流 ~