虎嗅 02月19日
9.11比9.9大?马斯克声称“天下最聪明”的Grok3“翻车了”。据九派新闻,近日,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。此前,马斯克将Grok-3描述为...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

马斯克最新发布的Grok3号称“天下最聪明”,却在简单的大小比较问题上“翻车”。当被问及“9.11与9.9哪个大”时,Grok3未能给出正确答案,暴露出AI在常识理解方面的短板。即使是其他主流大模型,如ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet,在类似问题上也纷纷出错。这引发了人们对AI发展方向的思考:AI在擅长复杂计算的同时,如何提升对基本常识的理解能力,仍然是一个亟待解决的问题。这一事件也再次提醒我们,AI的发展并非一蹴而就,仍需不断完善和提升。

🤔Grok3被马斯克誉为“地球上最聪明的AI”,但在测试中未能正确回答“9.11与9.9哪个大”的问题,引发关注。

🌐其他主流大模型,包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet,在类似问题上也出现错误,表明AI在常识理解方面存在普遍性问题。

🎯AI在数学奥赛题等复杂计算方面表现出色,但在基础常识判断上仍显不足,反映出AI发展中“重计算、轻常识”的现象。

💡提示工程师莱利·古德赛德通过变换问法,成功揭示了多个主流大模型的常识缺陷,并将此话题广泛传播,引发行业对AI常识理解能力的关注。

9.11比9.9大?马斯克声称“天下最聪明”的Grok3“翻车了”。

据九派新闻,近日,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。

此前,马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示:“自己整个周末都在和团队打磨产品。”

然而据媒体报道,有人测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答这个问题。

值得一提的是,用同样的问题询问DeepSeek时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。

“9.11和9.9哪个大”是AI领域的一个经典问题。

艾伦研究机构(Allen Institute)成员林禹臣曾在社交媒体平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok3 人工智能 常识理解 AI测试 大模型
相关文章