新智元 02月21日 00:28
突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Grok-3由xAI推出,号称由20万块GPU训练而成,并免费开放DeepSearch和Think两大模式。然而,Grok-3刚一亮相就遭到OpenAI研究员的质疑,被指在评测中作弊刷分。尽管如此,实测表明Grok-3在开启Think模式后,能正确回答之前答错的问题。同时,Grok-3在代码工作流中表现出色,能快速生成游戏和3D模型。其照片级真实的图像生成能力也令人惊艳,但仍存在一些缺陷。此外,Grok-3还可能推出高级语音模式,支持联网、自定义语音等功能。OpenAI与xAI的竞争,最终受益的是用户。

🚀Grok-3由xAI推出,号称由20万块GPU训练而成,并免费开放DeepSearch和Think两大模式,旨在提升AI的可用性。

🤔尽管Grok-3在评测中被OpenAI研究员质疑作弊刷分,但实测显示,在开启Think模式后,它能够解决之前答错的问题,展示了一定的智能水平。

🎮Grok-3在代码工作流中表现出色,用户可以在短时间内利用它生成视频游戏和逼真的3D模型,极大地提高了开发效率。

🖼️Grok-3具备生成照片级真实图像的能力,细节丰富,但偶尔在特定场景下仍会出现问题,例如倒立的人物。

🎤Grok-3未来或将推出高级语音模式,支持联网、自定义语音、语音转录和音频分享等功能,提供更丰富的交互体验。

新智元 2025-02-20 12:55 北京



  新智元报道  

编辑:编辑部 HNYZ

【新智元导读】刚刚Grok-3免费开放了!DeepSearch和Think两大模式加持,刚上了热搜的「9.11和9.9哪个大」终于能做对了(但没全对),甚至1分钟秒解MIT积分赛题。然而,它刚一亮相就遭OpenAI研究员「打假」,被对方质疑作弊。


世界首个20万块GPU(另有说法是10训出的Grok-3,官宣人人可用了!

DeepSearch、Think两大模式,同时上线。唯独遗憾的是,Big Brain还在雪藏。

Grok 3全部免费开放,直到服务器崩溃为止

一边,AI科技圈开发者激动地奔走相告,另一边,OpenAI和xAI直接打起来了。

先是本科辍学的OpenAI研究员Aidan McLaughlin,谴责Grok-3在评测中用基于64个样本进行多数投票刷分。

灰色阴影区域表示在64个样本下的多数投票一致性表现

随后,OpenAI应用研究主管Boris Power更是丝毫不留情面,「看到Grok团队在评估中作弊和欺骗的动机,真令人失望。简而言之,o3-mini在每个评估中都优于Grok-3。Grok-3确实是一个不错的模型,但没有必要过度宣传」。

对此,xAI高级工程师Igor Babuschkin,「完全不对。我们只是用了和你们一样的方法」。

从下图中不难看出,o1-preview和o1确实有同款「阴影」。

不过,根据McLaughlin的解释道,OpenAI o3-mini并没有使用这种方法。

OpenAI与xAI针锋相对,也不是一天两天了,好在他们的竞争,利好所有人。

话不多说,直接上实测吧。

一波实测来了

就在昨天,「Grok-3答错9.11和9.9哪个大」这个话题,还一度冲到热搜话题前几。

我们实测发现,果然,如果用同样的方式问,Grok-3还是会答错。

而在开启Think模式后,它只思考了4秒就轻松做对了!

上下滑动查看

有趣的是,如果把prompt换成「9.11和9.9谁大」,Grok-3在普通模式下也能给出正确答案了。

然而,在开启Think模式之后,Grok-3却为了这个prompt想了足足34秒……

上下滑动查看

有网友实测Grok-3 二十四小时后,发现它的几大优点——

在代码工作流中,Grok-3表现得十分丝滑。

有人用Grok-3做了个带声音的视频游戏,主题是马斯克使用激光、火箭和婴儿来摧毁美国政府。

耗时一个小时后,Grok-3成功做出了这个游戏。

网友只用5分钟,就写出了一款大战小行星的游戏。

另一种形式的游戏如下。

甚至有人只在几分钟内,就用Grok-3和Imagen 3、tripoai等工具,创建了下面这些逼真的3D模型。

有人总结了一份Grok-3全部潜能的完整速查表,因为它「强大到疯狂」,但大多数人还不知道该如何有效使用。

照片级真实的图像

Grok-3是不是世界上最聪明的AI还有待考察,但它现在确实可以生成照片级真实的图像。

X网友Min Choi分享了10个案例。

    在海滩上的随意自拍

    疯狂的细节,你可以看到每根羽毛

    SpaceX的火箭

    图像细节程度简直令人惊异的眼睛特写

    月球网络探测车

    在纽约地铁上的自拍

    走秀的猫咪

    微型小熊猫的微距镜头

    一位年轻白化男子手持绿色小狗的文艺复兴风格肖像

    水池边的自拍

左右滑动查看

对此,有网友说,我们现在已经很难分清图片上的是不是现实了。

「我们已经跨越了那个门槛!」,Min说。

不过也有网友发现了它的一些缺点,比如生成正在倒立的人物时,依然会出现匪夷所思的问题。

网友实测,Grok-3在2024麻省理工积分大赛中,直接干掉o1 Pro和人类选手,并在1分02秒内解决了这个问题!

就连马斯克称赞道,简直太酷了。

高级语音模式,期待住了

下一步,Grok-3或许还会推出高级语音模式,一些拿到灰度测试的网友晒出了自己的实测。

它不仅支持联网模式,还支持自定义语音模式、语音转录、音频分享等功能。

目前,默认的是Sal男性声音。此外,还有一个Ara女性声音可选。

用户界面底部有三个键:关闭退出语音模式;静音;分享

如下是转录功能的展示。

下面视频中,Grok-3不仅会唱生日快乐歌,还会笑。

参考资料:

https://x.com/xai/status/1892400129719611567





阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok-3 xAI OpenAI 人工智能 AI模型
相关文章