PaperAgent 04月09日 18:32
里程碑,GPT-4.5大模型正式通过图灵测试!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

加州大学圣迭戈分校研究学者提供人工系统通过图灵测试证据,GPT-4.5被判断为人类的比例高达73%,实验涉及多种AI系统、提示类型及人群,分析了裁判判断结果等。

GPT-4.5被判断为人类的比例高达73%,高于真实人类被选比例

LLaMa-3.1被判断为人类的比例为56%,与人类参与者无显著差异

实验选择四种AI系统,测试两种提示类型,在两个独立人群中进行

裁判通过闲聊等方式判断,部分模型裁判准确率不显著高于随机水平

2025-04-02 23:58 湖北

重要里程碑事件!近日来自加州大学圣迭戈分校的研究学者首次提供了人工系统(LLaMa-3.1-405B 和 GPT-4.5)通过标准三方图灵测试的实证证据。

图灵测试由艾伦·图灵在 1950 年提出,用于判断机器是否能够表现出与人类相似的智能。测试中,人类裁判通过文本界面同时与两个人类和机器进行对话,如果裁判不能可靠地识别出人类,机器就被认为通过了测试。图灵测试在过去 75 年中一直是人工智能领域的重要议题,是衡量人工智能的重要标准之一。

图灵测试游戏界面,显示一名审讯者(绿色)与两名证人(灰色)正在进行的对话。顶部的计时器显示游戏中剩余的时间。

研究方法

实验结果

左侧:每位 AI 证人的胜率,即审讯者判定 AI 系统为人类而非实际人类证人的比例。误差条表示 95% 的自助法置信区间。每个条形图旁边的星号表示胜率是否显著不同于随机水平(50%)。右侧:审讯者在选择实际人类或 AI 模型时对每位证人类型的裁决信心。每个点代表一个单独的游戏。向左或向右的点表示对 AI 是 AI 而非人类的信心更高。误差条表示围绕平均值的 95% 自助法置信区间。
审讯者所采用策略的分类,左侧显示各类策略在游戏中的占比,右侧显示使用这些策略的游戏的平均准确率,并附有95%置信区间。参与者经常进行闲聊,询问证人的个人细节、活动或意见。那些说出不寻常话语或使用典型的大型语言模型(LLM)“越狱”技巧的审讯者最为准确。
在 Prolific 研究中,用于指导基于 LLM 的 AI 代理如何回应审讯者信息的完整PERSONA提示。
    https://arxiv.org/pdf/2503.23674Large Language Models Pass the Turing Test

    推荐阅读


      欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      图灵测试 人工智能 GPT-4.5 LLaMa-3.1
      相关文章