AI Daily | AI日报：马斯克Grok 4跑分泄露，有望改写LLM格局; 猫猫话术让大模型数学答错率翻3倍; 安克创新All in AI，代码采纳率破50%

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。欢迎关注公众号「AI Reading Hub」，获取更多AI资讯和技术文章。

2025-07-06 资讯日报

新闻资讯

马斯克Grok 4跑分泄露，有望改写LLM格局

Grok 4跑分泄露，在多项测试中成绩优异，尤其在「人类最后考试」中得分45%远超对手。马斯克称其以「第一性原理」构建，将在7月4日后发布，编码能力或成亮点，但也有人对此存疑。>阅读原文

猫猫话术让大模型数学答错率翻3倍

Collinear AI研究发现，在数学题加特定话术能攻击推理模型，像DeepSeek - R1、OpenAI o1等错误率大增。研究探索攻击方式，总结三种模式，不同模型和数据集受影响程度有别。>阅读原文

安克创新All in AI，代码采纳率破50%

安克创新2023年起All in AI，建设AIME平台，代码采纳率突破50%。评估AI落地关注业务、技术、团队成熟度，对创新ROI按场景差异化管理，技术迭代时会果断重构平台。>阅读原文

MLLMs：长推理链致更多幻觉

斯坦福等校学者研究发现，MLLMs 推理链变长会产生更强幻觉，其幻觉来源与 LLMs 不同，涉及跨模态语义失配。主流多模态架构结构设计和训练机制失衡，易致注意力漂移，加剧语言模态支配。>阅读原文

Karpathy力挺！上下文工程成硅谷新宠

新智元报道，继提示工程后，「上下文工程」在硅谷爆火，获Karpathy等大佬支持。它是科学与艺术，构建上下文为LLM解决定制任务，智能体成败关键在于上下文质量。>阅读原文

全球AI失业潮：25年已裁94000人

2025年刚过半，全美科技行业已裁94000人，微软多次裁员。微软高管建议被裁员工用AI管理情绪引众怒。各公司为发展AI调整人力，软件、客服等岗位易被替代。>阅读原文

合成生物学教父揭秘2050年长寿未来

合成生物学教父George Church称，基因测序等技术让生物技术大突破临近。预计2050年解决老龄化，体细胞疗法或使人‘返老还童’。他还提到复活物种、‘镜像生命’危险，强调遗传咨询价值。>阅读原文

Figma 申请 IPO，AI 投入利弊并存

Figma 申请 IPO，其业务增长强劲，2025 年 Q1 营收同比增 46%。今年扩展工具库，推出多款新工具。虽 AI 投入短期内或拖累效率、增加成本，但 Figma 认为其是未来设计核心，会加倍投入。>阅读原文

ChatGPT：十年病因，我来搞定

Reddit网友分享，自己被不明症状困扰十年，医生未查出病因，ChatGPT分析出基因突变。很多人有类似经历。AI可辅助诊疗，但不能盲目依赖，最终还需人类医生诊断。>阅读原文

Karpathy：像细菌一样写代码助力开源

Andrej Karpathy：构建繁荣开源社区，代码要像细菌基因组一样小巧、模块化、自给自足，兼顾细菌与真核生物基因组优点，多写gist少搞git仓库。>阅读原文

徐文健创业，AI播客ListenHub上线

徐文健离开百川创业，与冯雷创立火星电波，聚焦AI音频，推出ListenHub。产品研发快，已获用户，也有质疑。公司计划出海，徐文健强调企业核心是组织和理念，要专注自身产品打磨。>阅读原文

AI 海啸来袭，人类工作岌岌可危

Andrew Wilkinson：AI 海啸将至，未来 1000 天多数专业技能或被淘汰。预计 2026 - 2030 年工作岗位大洗牌，白领失业增加。他建议做好对冲，还给出投资方向。>阅读原文

AI让互联网成“垃圾场”，学术也遭殃

机器之心报道：AI生成的诡异视频在社交平台大行其道，靠夸张情节赚流量，创作还简单。更糟的是，学术领域也出现AI炮制的低质量论文，危害科研公正，别让AI成“垃圾制造机”。>阅读原文

ChatGPT 10秒解医学五年谜团

一位患者下巴问题五年未确诊，ChatGPT几秒给出建议，一分钟缓解症状。此案例引发热议，网友惊叹其能力，Hoffman赞其开启赋能个人新时代，AI正重塑医疗未来。>阅读原文

微软CEO：AI医生诊断准确率是人类4倍

微软CEO宣布AI诊断系统MAI - DxO诊断准确率达85.5%，是人类医生4倍。它模拟虚拟医生团队，既准又省。不过引发不少质疑，微软称AI是医生补充，未来是人机协作。>阅读原文

Snyk收购Invariant Labs，剑指AI安全市场

2025年6月24日，Snyk收购Invariant Labs。Snyk CEO表示增强防护能力。Invariant Labs在MCP研究领先，Snyk产品多样，二者合并方向一致，有望提升竞争力，扩张AI应用安全市场。>阅读原文

产品应用

字节X-UniMotion实现高精度动作合成

字节推出X-UniMotion：融合先进算法与界面，构建强大架构，能实现高精度动作模仿合成，可生成自然流畅角色动作，还介绍技术原理等，或用于字节平台。>阅读原文

Gemini CLI 更新：支持音视频，体验大升级

Gemini CLI 重大更新，新增音视频输入扩展多模态能力（虽未正式开启），Markdown 功能增强，集成开发工具，技术栈升级，还有主题、隐私等多方面优化。>阅读原文

开源动态

上海AI Lab开源高质量视频数据集Sekai

上海AI Lab等机构联合推出Sekai数据集项目，含真实和虚拟两个数据集，还训练了Yume模型。构建经四环节，具多特点，有望成世界建模等领域重要数据基石。>阅读原文

开源君：ReactOS成Win系统开源替代版

开源君推荐开源项目ReactOS，它像Windows“孪生兄弟”，能与NT系列兼容，运行Win32程序。项目始于1996年，有轻量、多语言等特点，安装简单，适合系统开发爱好者。>阅读原文

清华系 Agent 框架开源，要“消灭”Prompt？

清华系 Cooragent 框架开源后获 1.9k stars。创始人王政指出，大模型能力提升推动 Agent 发展，MCP 是其基础。现有 Agent 框架有局限，需解决泛化与精确性平衡等问题，未来 B 端和 C 端应并行发展。>阅读原文

算法论文

Meta优化Scaling Law，省token又提效

Meta论文有新进展，提出旋转不变型三线性注意力机制，证明其表现能改变Scaling Law系数。研究表明，2 - simplicial Transformer在有限token预算下扩展性、参数数量scaling指数等方面优于Transformer。>阅读原文

MoCa：首个双向多模态表征模型诞生

中国人民大学等团队：提出MoCa框架解决VLM用于嵌入的痛点，分两阶段训练成双向编码器。实验性能佳，未来可拓展模态、语言适应等方向推动模型发展。>阅读原文

Causal - Copilot：集成 20 + 算法，优于 GPT - 4o

加利福尼亚大学圣迭戈分校团队推出 Causal - Copilot，它集成 20 + 算法，解决因果分析使用门槛高和预训练模型局限性问题，在多场景评估中表现优异，优于 GPT - 4o，且已开源。>阅读原文

FOREWARN 框架助力具身智能部署

卡耐基梅隆大学与伯克利团队提出 FOREWARN 框架，将‘世界模型’与‘多模态语言推理’结合，解决具身智能部署难题。实验显示，该框架提升了成功率与适应性，虽面临挑战，但潜力大。>阅读原文

华为诺亚HLCE：测LLM编程推理极限

华为诺亚推出HLCE编程基准，含竞赛难题。顶级LLM在此表现不佳，推理模型强于非推理模型，IOI交互式题是难点。模型自我认知与推理能力发展不同步，Test Time Scaling Law未达上限，LLM多次尝试有获奖牌实力。>阅读原文

    </p>

官网：www.AiReadingHub.com