掘金 人工智能 13小时前
AI Daily | AI日报:马斯克Grok 4跑分泄露,有望改写LLM格局; 猫猫话术让大模型数学答错率翻3倍; 安克创新All in AI,代码采纳率破50%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

这份AI资讯日报汇集了最新的技术进展、应用案例以及行业洞察。从马斯克Grok 4的跑分泄露,到AI在医疗、编程、设计等领域的应用,再到对AI失业潮的探讨,文章涵盖了AI领域的多个关键议题。同时,也关注了合成生物学、开源项目等相关动态。通过对这些信息的梳理,读者可以全面了解AI技术的最新发展趋势及其对社会各方面的影响。

🚀 马斯克Grok 4在多项测试中表现出色,尤其在“人类最后考试”中得分远超竞争对手,其编码能力备受关注。但也有人对其真实性表示怀疑。

🐱 研究发现,在数学题中加入特定话术能显著增加大模型错误率,凸显了模型在处理复杂问题时的脆弱性。

💡 安克创新All in AI,代码采纳率突破50%,体现了AI在企业中的实际应用,以及对业务、技术和团队成熟度的综合评估。

🧠 Karpathy力推“上下文工程”,认为其是构建LLM解决定制任务的关键,智能体的成败取决于上下文的质量。

🏥 微软CEO宣布AI诊断系统准确率达85.5%,是人类医生的4倍,引发了对AI在医疗领域应用的讨论,但同时也强调了人机协作的重要性。

💻 清华系Cooragent框架开源,旨在解决现有Agent框架的局限性,推动Agent技术的发展,未来B端和C端将并行发展。

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。欢迎关注公众号「AI Reading Hub」,获取更多AI资讯和技术文章。

2025-07-06 资讯日报

新闻资讯

马斯克Grok 4跑分泄露,有望改写LLM格局

Grok 4跑分泄露,在多项测试中成绩优异,尤其在「人类最后考试」中得分45%远超对手。马斯克称其以「第一性原理」构建,将在7月4日后发布,编码能力或成亮点,但也有人对此存疑。>阅读原文

猫猫话术让大模型数学答错率翻3倍

Collinear AI研究发现,在数学题加特定话术能攻击推理模型,像DeepSeek - R1、OpenAI o1等错误率大增。研究探索攻击方式,总结三种模式,不同模型和数据集受影响程度有别。>阅读原文

安克创新All in AI,代码采纳率破50%

安克创新2023年起All in AI,建设AIME平台,代码采纳率突破50%。评估AI落地关注业务、技术、团队成熟度,对创新ROI按场景差异化管理,技术迭代时会果断重构平台。>阅读原文

MLLMs:长推理链致更多幻觉

斯坦福等校学者研究发现,MLLMs 推理链变长会产生更强幻觉,其幻觉来源与 LLMs 不同,涉及跨模态语义失配。主流多模态架构结构设计和训练机制失衡,易致注意力漂移,加剧语言模态支配。>阅读原文

Karpathy力挺!上下文工程成硅谷新宠

新智元报道,继提示工程后,「上下文工程」在硅谷爆火,获Karpathy等大佬支持。它是科学与艺术,构建上下文为LLM解决定制任务,智能体成败关键在于上下文质量。>阅读原文

全球AI失业潮:25年已裁94000人

2025年刚过半,全美科技行业已裁94000人,微软多次裁员。微软高管建议被裁员工用AI管理情绪引众怒。各公司为发展AI调整人力,软件、客服等岗位易被替代。>阅读原文

合成生物学教父揭秘2050年长寿未来

合成生物学教父George Church称,基因测序等技术让生物技术大突破临近。预计2050年解决老龄化,体细胞疗法或使人‘返老还童’。他还提到复活物种、‘镜像生命’危险,强调遗传咨询价值。>阅读原文

Figma 申请 IPO,AI 投入利弊并存

Figma 申请 IPO,其业务增长强劲,2025 年 Q1 营收同比增 46%。今年扩展工具库,推出多款新工具。虽 AI 投入短期内或拖累效率、增加成本,但 Figma 认为其是未来设计核心,会加倍投入。>阅读原文

ChatGPT:十年病因,我来搞定

Reddit网友分享,自己被不明症状困扰十年,医生未查出病因,ChatGPT分析出基因突变。很多人有类似经历。AI可辅助诊疗,但不能盲目依赖,最终还需人类医生诊断。>阅读原文

Karpathy:像细菌一样写代码助力开源

Andrej Karpathy:构建繁荣开源社区,代码要像细菌基因组一样小巧、模块化、自给自足,兼顾细菌与真核生物基因组优点,多写gist少搞git仓库。>阅读原文

徐文健创业,AI播客ListenHub上线

徐文健离开百川创业,与冯雷创立火星电波,聚焦AI音频,推出ListenHub。产品研发快,已获用户,也有质疑。公司计划出海,徐文健强调企业核心是组织和理念,要专注自身产品打磨。>阅读原文

AI 海啸来袭,人类工作岌岌可危

Andrew Wilkinson:AI 海啸将至,未来 1000 天多数专业技能或被淘汰。预计 2026 - 2030 年工作岗位大洗牌,白领失业增加。他建议做好对冲,还给出投资方向。>阅读原文

AI让互联网成“垃圾场”,学术也遭殃

机器之心报道:AI生成的诡异视频在社交平台大行其道,靠夸张情节赚流量,创作还简单。更糟的是,学术领域也出现AI炮制的低质量论文,危害科研公正,别让AI成“垃圾制造机”。>阅读原文

ChatGPT 10秒解医学五年谜团

一位患者下巴问题五年未确诊,ChatGPT几秒给出建议,一分钟缓解症状。此案例引发热议,网友惊叹其能力,Hoffman赞其开启赋能个人新时代,AI正重塑医疗未来。>阅读原文

微软CEO:AI医生诊断准确率是人类4倍

微软CEO宣布AI诊断系统MAI - DxO诊断准确率达85.5%,是人类医生4倍。它模拟虚拟医生团队,既准又省。不过引发不少质疑,微软称AI是医生补充,未来是人机协作。>阅读原文

Snyk收购Invariant Labs,剑指AI安全市场

2025年6月24日,Snyk收购Invariant Labs。Snyk CEO表示增强防护能力。Invariant Labs在MCP研究领先,Snyk产品多样,二者合并方向一致,有望提升竞争力,扩张AI应用安全市场。>阅读原文

产品应用

字节X-UniMotion实现高精度动作合成

字节推出X-UniMotion:融合先进算法与界面,构建强大架构,能实现高精度动作模仿合成,可生成自然流畅角色动作,还介绍技术原理等,或用于字节平台。>阅读原文

Gemini CLI 更新:支持音视频,体验大升级

Gemini CLI 重大更新,新增音视频输入扩展多模态能力(虽未正式开启),Markdown 功能增强,集成开发工具,技术栈升级,还有主题、隐私等多方面优化。>阅读原文

推荐文章

Jason Wei:用‘描述 - 执行鸿沟’判断AI自动化任务

Jason Wei提出用‘描述 - 执行鸿沟’判断AI优先自动化任务。‘描述 - 执行鸿沟’大的任务,如修正长文语法错误,适合自动化;反之,如编写数据处理脚本,自动化价值有限。>阅读原文

作者 6 月小结:告别读博,工作乐观向前

作者表示不再想读博、不追求研究工作,要找幸福工作。工作中 Agent 落地有成果,认为平台化能提效,选业务时乐观选高难度的,还反思消费与做视频问题。>阅读原文

刘鹏飞团队:软件3.5交互即智能时代已至

上海交通大学刘鹏飞团队指出,2024年9月后“软件3.0”过时,“软件3.5”诞生。其强调“交互即智能”,以思维层面交流为基础,实现认知协作,对开发者技能有新要求。>阅读原文

谭李、肖康:数据Agent激活企业数据

数势科技谭李、飞轮科技肖康认为,数据Agent懂业务,能个性化主动服务,提升人与数据交互效率。它可激活沉睡数据,适用于灵活及时决策场景,未来将催生新角色,企业应结合数据与模型。>阅读原文

开源动态

上海AI Lab开源高质量视频数据集Sekai

上海AI Lab等机构联合推出Sekai数据集项目,含真实和虚拟两个数据集,还训练了Yume模型。构建经四环节,具多特点,有望成世界建模等领域重要数据基石。>阅读原文

开源君:ReactOS成Win系统开源替代版

开源君推荐开源项目ReactOS,它像Windows“孪生兄弟”,能与NT系列兼容,运行Win32程序。项目始于1996年,有轻量、多语言等特点,安装简单,适合系统开发爱好者。>阅读原文

清华系 Agent 框架开源,要“消灭”Prompt?

清华系 Cooragent 框架开源后获 1.9k stars。创始人王政指出,大模型能力提升推动 Agent 发展,MCP 是其基础。现有 Agent 框架有局限,需解决泛化与精确性平衡等问题,未来 B 端和 C 端应并行发展。>阅读原文

算法论文

Meta优化Scaling Law,省token又提效

Meta论文有新进展,提出旋转不变型三线性注意力机制,证明其表现能改变Scaling Law系数。研究表明,2 - simplicial Transformer在有限token预算下扩展性、参数数量scaling指数等方面优于Transformer。>阅读原文

MoCa:首个双向多模态表征模型诞生

中国人民大学等团队:提出MoCa框架解决VLM用于嵌入的痛点,分两阶段训练成双向编码器。实验性能佳,未来可拓展模态、语言适应等方向推动模型发展。>阅读原文

Causal - Copilot:集成 20 + 算法,优于 GPT - 4o

加利福尼亚大学圣迭戈分校团队推出 Causal - Copilot,它集成 20 + 算法,解决因果分析使用门槛高和预训练模型局限性问题,在多场景评估中表现优异,优于 GPT - 4o,且已开源。>阅读原文

FOREWARN 框架助力具身智能部署

卡耐基梅隆大学与伯克利团队提出 FOREWARN 框架,将‘世界模型’与‘多模态语言推理’结合,解决具身智能部署难题。实验显示,该框架提升了成功率与适应性,虽面临挑战,但潜力大。>阅读原文

华为诺亚HLCE:测LLM编程推理极限

华为诺亚推出HLCE编程基准,含竞赛难题。顶级LLM在此表现不佳,推理模型强于非推理模型,IOI交互式题是难点。模型自我认知与推理能力发展不同步,Test Time Scaling Law未达上限,LLM多次尝试有获奖牌实力。>阅读原文

    </p>    

官网:www.AiReadingHub.com

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 技术 应用 资讯
相关文章