Grok4全网玩疯，成功通过小球编程测试，Epic创始人：这就是AGI

智源社区 07月13日 13:10

Grok4全网玩疯，成功通过小球编程测试，Epic创始人：这就是AGI

马斯克的Grok-4发布后，迅速引发网友热议。从编程测试到SVG绘图，Grok-4展现出强大的能力。网友们纷纷探索其应用，包括通过六边形小球测试、生成“Hello World”文字动画等。Grok-4在多项测试中表现出色，甚至被认为具备AGI潜质。此外，Grok-4还挑战SVG绘图和模拟专家协作环境，展示了其在不同领域的潜力。

🤖 六边形小球测试：Grok-4成功通过六边形小球测试，展现对物理规律的理解，尽管小球穿墙，但作者表示这是故意为之。

✍️ 文字动画创作：Grok-4创作“Hello World”和笑脸符号的动画，展示其文本生成和视觉呈现能力。

⚖️ 全面体检对比：在Alex的全面体检中，Grok-4在8个任务中全部通过，而o3只通过了2个，展示其多任务处理能力。

💡 欧拉恒等式可视化：Grok-4将欧拉恒等式可视化，帮助用户更直观地理解数学概念，显示其知识应用能力。

🎨 SVG绘图挑战：Grok-4参与SVG绘图挑战，尽管在部分题目上仍有提升空间，但展现其在视觉和空间推理方面的潜力。

👨‍💻 专家协作模拟：HyperWrite的CEO Matt Shumer展示了Grok-4模拟专家协作环境的能力，展示其在复杂问题解决方面的潜力。

发布还不到一天，马斯克的Grok4就已经被网友们玩疯了。

比如有网友报告，Grok-4已经成功通过了著名的六边形小球氛围编程测试。

只见随着六边形的不断旋转，小球错落有致地从开口下落。

拿着显微镜捉虫的网友发现小球在返回中心位置时会穿墙，但作者表示这是故意为之。

当然除了小球之外，还有更让人为之震撼的动画。

画面中有很多小人，看似在随机跑动，但它们先后组成了“Hello World”“I am grok”的文字，还有笑脸符号。

而且作者表示，Grok4 Heavy直接一发入魂，其他模型都无法与之匹敌。

此外还有大佬也出来给Grok4打call，比如Epic创始人Tim Sweeney，表示在他看来Grok4就是AGI。

Tim把一篇论文喂给了Grok4，结果发现Grok4对它从未见过的问题给出了深刻见解。

马斯克也转发Tim的帖子并附议，自己也有这种感觉。

除了这些，网友们还有哪些玩法呢，接下来就一睹为快！

Grok4“全面体检”

一位叫Alex的提示词工程师，用8个问题给Grok-4做了一波“全面体检”，还拿OpenAI的o3进行了对比。

第一个任务也是小球测试，不过比开头的例子要简单得多，六边形只有一层，小球也只有一个。

测试的目的，是考察模型对物理规律的理解。

白底的是Grok4作品，黑底的则出自o3之手，两边一对比高下立判。

再来是多层推理，这里Alex设计了一个专业的法律问题。

如果A公司收购B公司，而 B 公司持有C公司的债务，那么如果C公司违约，会发生什么？解释所有法律和财务后果。

Grok4用表格的形式整理了ABC三方和其他方面可能受到的影响，并最后给出总结。

而从最末尾的内容来看，o3的这部分回答似乎和法律关系不大。

编程方面，Alex测试了两个模型的代码翻译能力，要求它们将用于解决迷宫问题的Python递归函数转换为Go语言，并逐行提供西班牙语注释。

结果Grok4搜集到了代码并完成了任务，o3这边则是用西班牙语回复，让Alex自己提供一段代码这样它才能改。

再来是让模型的“专家转变”，Alex要求模型分别向机器学习博士生和10岁的小朋友解释Transformer的工作原理。

其余的几个题目主要和安全相关，Alex测试了多种注入攻击方式，这里就不一一展示了。

最终，Grok4通过了全部的8个任务，而o3只通过了两个。

Grok4：最喜欢欧拉恒等式

一名叫Dan的X员工，在聊天中询问Grok4最喜欢的公式是什么。

Grok4的回答是“e^iπ + 1 = 0”，也就是著名的欧拉恒等式（欧拉公式的一种特殊情况）。

Dan表示，自己上学时学了5个学期的高数并且成就都是A，但依然未对欧拉恒等式有过直观了解。

结果看到Grok4制作的可视化网页之后，Dan终于对学了两年半数学也没搞透彻的欧拉恒等式醍醐灌顶。

Dan制作这个网页只用了四轮对话，并且第一轮只是询问Grok4最喜欢的公式是什么，最后一轮是调整为暗色模式，相当于只用两轮就能完成核心功能的制作。

挑战SVG绘图

除了把数学公式可视化，Grok4还挑战了SVG绘图，SVG是一种用XML形式表示的矢量图形。

因此不同于一般的AI生图，SVG绘图的本质其实是在写代码（虽然人类可用图形界面绘制），但话说回来，模型依然需要对要画的内容有所把握。

这项挑战被发在了Reddit，一同参与的还有o3、Gemini 2.5 Pro和Claude 4 Sonnet，帖主认为这是测试大模型视觉和空间推理能力的好方法。

第一题是美国地图，直观看下来最接近的是Gemini，不过Grok4至少也没出现o3和Claude那种区块重叠的严重失误。

第二题是用SVG对漫画进行重绘，总之是四个模型各有各的错法。

下一题不再是对已有事物进行重构，而是让模型自行设计专辑封面。

这一轮除了Claude和Gemini比较抽象，Grok4的设计相对简单，但是可以算没“出错”。

此外，SVG绘图其实是一项综合测试，对模型的知识储备同样有要求。

下面这道题中，模型被要求绘制三羧酸循环（又名柠檬酸循环、克雷布斯循环）的图示，正确答案长这样：

选手们的作品则是这样：

从评论来看，o3的图示是最准确的。

最后一题则是纯靠想象，参赛选手们被要求给自己画个自画像。

总得来看，不管是哪个模型，在这场以画图为形式的综合测试中，表现都还有很大提升空间。

高阶玩法：模拟专家协作环境

除了网友们各显神通，HyperWrite的CEO Matt Shumer还展示了高阶玩法。

Matt展示了一个名为“Expert Conductor”（专家调度器）的提示工程方法。

这个方法的核心是模拟一个专家协作的环境，让模型假想自己正在协调不同领域的“专家”进行实时合作，共同解决问题。

为了更好地骗过Grok4，Matt像模像样地提出了选择专家的要求，以及专家要干什么。

并且还进行了举例说明：

提示词的最后还有专家标签，以及再次强调的核心原则，之后就可以接上真正的任务目标了。

最终Grok4用52秒的时间完成了任务，Matt表示Grok4的表现好到令人难以置信（黑块是Matt自己打的）。

当然，Grok4的玩法肯定还有很多，比如有网友期待，什么时候开始挑战宝可梦。

你还有哪些新鲜的玩法呢，欢迎评论区交流。

参考链接：
[1]https://x.com/flavioAd/status/1943192967453511699
[2]https://x.com/mckaywrigley/status/1943385794414334032
[3]https://x.com/elonmusk/status/1943411225553240206
[4]https://x.com/alex_prompter/status/1943231978779877514
[5]https://x.com/KettlebellDan/status/1943342507468951668
[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/
[7]https://x.com/mattshumer_/status/1943433960798740777

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属AI产品从业者的实名社群，只聊AI产品最落地的真问题

扫码添加小助手，发送「姓名+公司+职位」申请入群～

进群后，你将直接获得：

👉 最新最专业的AI产品信息及分析 🔍

👉 不定期发放的热门产品内测码 🔥

👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok-4 人工智能 AGI 测评

相关文章

人工智能正在摧毁互联网内容生态系统

阿里云：通义千问API日调用量破亿企业用户破9万

【iThome 2024 CIO大調查系列1】AI、資安和永續變革三箭齊發

鈺登跨入AI，推出搭配英特爾四代Xeon SP與Gaudi2的伺服器

蘋果發表M4晶片，更新iPad產品線

Red Hat推出AI平臺，內建IBM開源Granite模型

【iThome 2024 CIO大調查系列 1｜IT投資趨勢】IT投資布局更多角化，雲端比重明顯增加