掘金 人工智能 前天 14:33
再见ChatGPT!马斯克Grok4震撼登场,各项性能完爆Gemini 2.5 Pro
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

xAI发布Grok4旗舰AI模型,直接跳过Grok 3.5版本,采用All-in RL强化学习算力,引入多智能体系统和原生工具使用能力,在多项基准测试中取得突破性成绩。Grok4提供标准版、Heavy版和Code版,支持多模态输入和实时网络访问。xAI推出分层订阅服务,但Grok4面临高昂运行成本和用户接受度挑战,商业可行性和用户选择受性能-成本权衡影响。

🔍 Grok4采用All-in RL强化学习算力,动用20万个GPU协同工作,在ARC-AGI-2测试中得分16.2%,在Humanity's Last Exam测试中突破50%,成为首个突破50%的模型。

🤖 Grok4引入多智能体系统,通过并行工作和结果比较提高准确性和深度,并具备原生工具使用能力,可自主选择搜索查询。

💡 Grok4提供标准版、Heavy版和Code版,支持多模态输入、实时网络访问和语音交互,擅长理解网络文化和俚语,被称为最懂网络的AI助手。

💰 xAI推出分层订阅服务,SuperGrok标准版每月30美元,SuperGrok Heavy每月300美元,但Grok4面临运行成本极高、速度缓慢和用户接受度挑战。

📊 Grok4在AI模型性能排名中得分73分,超越OpenAI o3和Google Gemini 2.5 Pro,但高昂的运营成本可能限制实际应用场景,成本效益成为用户选择关键因素。

2025年7月9日,埃隆·马斯克旗下的人工智能公司xAI正式发布了其最新旗舰模型Grok4。这次发布通过在线直播形式进行,马斯克亲自与xAI团队成员一同介绍了这款被称为"地球上最智能"的AI模型。

值得注意的是,xAI直接跳过了原计划的Grok 3.5版本,直接推出Grok4,显示了其在AI竞赛中加速前进的决心。

一、核心技术突破

Grok4最重要的技术创新在于其训练方法的革命性改变。在别的公司如Anthropic和谷歌还仅用10%-20%的算力做强化学习的时候,xAI团队决定All in RL,使用了10倍的强化学习算力。

整个训练过程动用了xAI的Colossus超算集群——20万个GPU协同工作,这是全球最大的AI训练设施。

在架构设计上,Grok4引入了多智能体系统。Grok4 Heavy版本运行多个推理智能体并行工作,比较它们的输出以提高准确性和深度。马斯克形容这就像一个"学习小组",多个智能体同时解决问题,然后比较各自的工作以找到最佳答案。

另一个重要突破是原生工具使用能力。Grok4通过强化学习训练来使用工具,包括代码解释器和网络浏览,能够自主选择搜索查询,从网络深处找到知识。

二、性能表现与基准测试

Grok4在多项权威基准测试中取得了突破性成绩:

三、产品功能与应用场景

Grok4推出了多个版本以满足不同需求:

在功能特性方面,Grok4支持:

四、商业模式与定价

xAI为Grok4推出了分层订阅服务:

五、Grok4面临的一些挑战

社交媒体用户Ariel X抱怨Grok 4令人失望,主要因为其运行成本极高且速度缓慢,几乎是Gemini 2.5 Pro的两倍。

AI大模型的运行成本差异巨大。Claude 4 Opus (Thinking)以2036美元的总成本位居榜首,其中推理成本高达1604美元,占总成本的近80%。Grok 4紧随其后,验证了用户的抱怨。相比之下,其他主流模型如Gemini、GPT-4系列的成本都在几百美元以内,最便宜的Llama 4 Scout仅需6美元。

高昂的推理成本表明某些模型在处理复杂任务时需要大量计算资源,这直接影响了其商业可行性和用户接受度。对于企业和开发者来说,选择AI模型时不仅要考虑性能,成本效益同样重要。

Artificial Analysis最新发布的AI模型性能排名,为前面的成本讨论提供了重要补充。

根据人工智能分析智能指数评测,xAI的Grok 4以73分位居榜首,超越了OpenAI o3和Google Gemini 2.5 Pro的70分。这个结果解释了为什么Grok 4的运行成本如此之高——其卓越的性能需要更多的计算资源支撑。

这形成了一个有趣的悖论:最优秀的AI模型往往也是最昂贵的。从商业角度看,这种"性能-成本"权衡成为了AI行业的核心挑战。虽然Grok 4在技术上领先,但其高昂的运营成本可能限制了实际应用场景,主要适用于对性能要求极高且成本不敏感的任务。

值得注意的是,多个模型的得分相当接近(如OpenAI、Google、Anthropic的产品都在70分左右),这表明顶尖AI模型之间的性能差距正在缩小。在这种情况下,成本效益可能成为用户选择的决定性因素。企业需要根据具体需求,在模型性能和运营成本之间找到最佳平衡点。

六、国内直接使用Grok4

谷歌浏览器访问:www.nezhasoft.cloud

私信哪吒,备注体验ai,领取体验码。

还包含了ChatGPT4o、o4-mini、o4-mini-high、o3、GPT4.5、GPT4.1、Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek R1 0528等模型。

七、体验马斯克Grok4

1、版本号

你是什么模型,具体什么版本号,知识截止日期是几号

2、写作

请写一篇关于"AI觉醒后第一次刷抖音"的科幻短篇小说,要求:

请实现一个高效的"多智能体协作求解"算法,模拟你自己的工作原理:

假设你要帮助一家初创公司选择AI模型:

请分析:

    应该选择哪种规模的模型?如何设计架构以满足性能要求?成本如何优化?给出具体的技术选型建议

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok4 xAI 人工智能 强化学习 多智能体系统
相关文章