Cnbeta 02月06日
为什么说IQ不是人工智能的测试标准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI CEO山姆·奥特曼声称人工智能“智商”在快速提高,引发了关于使用智商评估AI能力的讨论。尽管社交媒体上出现对AI模型进行智商测试并排名的现象,但专家们普遍认为,智商作为衡量人类智力的标准,并不适用于评估AI,这种比较具有误导性。智商测试存在局限性,其设计初衷是评估人类解决问题的能力,而AI解决问题的方式与人类截然不同。因此,我们需要更合适的方法来评估AI的能力,避免将AI的计算能力与人类智力进行直接比较。

🧠 智商测试是为人类设计的,旨在评估一般问题解决能力,但它并不能很好地衡量AI的能力,将两者进行比较就像“拿苹果和橘子作比较”。

💾 AI在智商测试中可能具有不公平的优势,因为它们拥有海量内存和内化知识,并且通常在包含智商测试例题的公共网络数据上进行训练。

🧪 需要更好的人工智能测试方式,避免直接将系统性能与人类能力进行比较,因为AI系统总是能够完成已经超出人类能力的任务。

最近的一次新闻发布会上,OpenAI 首席执行官山姆-奥特曼(Sam Altman)说,他观察到人工智能的"智商"在过去几年中迅速提高。他说:"非常粗略地说,我感觉这在科学上并不准确,这只是一种感觉或精神上的答案--每年我们的智商都会提高一个标准差。"

奥特曼并不是第一个把智商(一种对人的智力的估计)作为人工智能进步基准的人。 社交媒体上的人工智能博主曾对模型进行智商测试,并对结果进行排名。但许多专家表示,智商并不能很好地衡量模型的能力,而且会产生误导。

牛津大学研究科技与监管的研究员桑德拉-瓦赫特(Sandra Wachter) 说:"用我们对人类使用的相同衡量标准来描述能力或进步,这可能很有诱惑力,但这就像拿苹果和橘子作比较。"

奥特曼在新闻发布会上发表评论时,将智商等同于智力。 然而,智商测试是衡量某种智力的相对标准,而不是客观标准。 有一些共识认为,智商是对逻辑和抽象推理的合理测试。 但它并不能测量实践智力--知道如何使事物运转,而且它充其量只是一个快照。

瓦赫特指出:"IQ 是一种衡量人类能力的工具,而且是一种有争议的工具,其依据是科学家们认为人类的智力是什么样的。但不能用同样的方法来描述人工智能的能力。 汽车的速度比人类快,潜艇的潜水能力比人类强。 但这并不意味着汽车或潜艇超越了人类智慧。 你这是在将人类智力的一个方面与人类性能相提并论,而人类智力要复杂得多。"

智商测试的起源一些历史学家将其追溯到优生学--一种被广泛诋毁的科学理论,认为可以通过选择性繁殖来提高人的智商--要想在智商测试中取得优异成绩,测试者必须具备强大的工作记忆和对西方文化规范的了解。 当然,这就为偏见提供了可乘之机,这也是一位心理学家将智商测试称为"意识形态败坏的智力机械模型"的原因。

华盛顿大学研究人工智能伦理的博士候选人 Os Keyes 认为,一个模型在智商测试中表现出色,更多地是说明了测试的缺陷,而不是模型的表现。

凯耶斯说:"如果你有无限的记忆力和耐心,[这些]测试是很容易刷分的。智商测试是衡量认知、智商和智力的一种非常有限的方式,这一点我们在数字计算机本身发明之前就已经知道了。"

人工智能在智商测试中很可能也具有不公平的优势,因为模型拥有海量内存和内化知识。 通常情况下,模型是在公共网络数据上进行训练的,而网络上有很多从智商测试中提取的例题。

伦敦国王学院(King's College London)专门从事人工智能研究的研究员迈克-库克(Mike Cook)说:"测试往往会重复非常相似的模式--提高智商的一个万无一失的方法就是练习智商测试,这基本上是每个(模型)都做过的事情。当我学习某样东西时,我不会像人工智能那样把它清晰地输入我的大脑100万次,我也不可能在没有噪音或信号损失的情况下处理它。"

归根结底,智商测试--尽管有失偏颇--是为人类设计的,旨在作为一种评估一般问题解决能力的方法。 对于解决问题的方式与人类截然不同的技术来说,这些测试并不合适。

库克说:"乌鸦也许可以使用工具从盒子里找到食物,但这并不意味着它可以进入哈佛大学学习。 当我解决一道数学题时,我的大脑也在与自己的能力作斗争,它要正确地阅读书页上的文字,不要去想回家路上要买的东西,或者现在房间里是否太冷。 换句话说,人类大脑在解决问题时,不管是任何问题,不管是智商测试还是其他问题,都要处理更多的事情,而且[比人工智能]得到的帮助要少得多。"

AI Now 研究所的首席人工智能科学家海迪-克拉夫(Heidy Khlaaf)认为:"所有这些都表明需要更好的人工智能测试方式。在计算的历史上,我们从未将计算能力与人类的计算能力进行过比较,这正是因为计算的本质意味着系统总是能够完成已经超出人类能力的任务。我们直接将系统性能与人类能力进行比较的想法是最近出现的一种现象,这种现象备受争议,也是围绕着不断扩大和移动的基准所产生的争议来评估人工智能系统。"

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 智商测试 AI评估
相关文章