AI Daily | AI日报：尹良升：SGLang 助力大模型部署; OpenAI深夜连发，开源延期引猜测; OpenAI发布o3-pro，奥特曼展望AI

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

2025-06-11 资讯日报

新闻资讯

尹良升：SGLang 助力大模型部署

SGLang 核心开发者尹良升称，其核心优势是高性能与易二次开发，PD 分离等技术解决部署痛点。他认为模型会更大，多 GPU 和并行策略是部署关键，还提醒别忽视参数调试。>阅读原文

OpenAI深夜连发，开源延期引猜测

OpenAI：o3降价、o3 - pro发布，开源模型延期。Sam Altman：发《温和奇点》长文，预测2025 - 2027年AI发展。网友质疑开源延期是因不敌DeepSeek R1，也关注AI能耗、工作未来等问题。>阅读原文

OpenAI发布o3-pro，奥特曼展望AI

OpenAI奥特曼：o3-pro已发布，Pro用户可体验。它在多领域表现佳，但在特定数据集与o3相近且贵。网友评价不一。他还展望未来，认为AI会带来巨变，也有挑战，要解决安全和协同问题。>阅读原文

扎克伯格砸钱救场Llama 4

扎克伯格：Llama 4表现拉胯，我急了！一边开高薪挖人建实验室，一边花148亿美元收购Scale AI。此前Llama 4第三方测试差，大版本还推迟，Meta员工也有跳槽。>阅读原文

OpenAI秘密训练新模型o4

SemiAnalysis爆料：OpenAI在训新模型，o4基于GPT - 4.1训练。强化学习推动推理模型进步，解锁AI智能体潜力，但面临推理开销大、奖励函数难定等问题，不同规模模型训练方法有别。>阅读原文

Mistral 推强推理模型 Magistral

Mistral AI：发布 Magistral 大语言模型系列，有企业和开源版。它推理强、多语言出色，速度快 10 倍，将用于主流云平台，虽价格上涨但比竞品有优势，后续会快速迭代。>阅读原文

华为AI算力集群创纪录

华为昇腾万卡算力集群近乎‘永不罢工’，训练可用度达98%。华为公开技术秘密，提出‘3+3’体系，含三大基础与业务支撑能力，带来可观收益，如高可用度、快恢复、高线性度等。>阅读原文

Ilya：AI将完成人类所有事

Ilya Sutskever：AI能完成人类所有事，因大脑是生物计算机。AI进步快，会改变工作，虽难想象其未来，但观察它能激发克服挑战的能量。>阅读原文

专家：大模型破解金融难题

奇富科技费浩峻等专家探讨大模型赋能金融：目前大模型可辅助工作，在强决策场景难独立完成任务；要提高数据可靠性、优化推理抑制幻觉；结合多技术解决工程问题、提升智能体应用效果。>阅读原文

OpenAI推o3 - pro，奥特曼谈AI未来

OpenAI推出o3 - pro，成最擅数学等的模型，o3降价80%引‘是否降智’争议。o3 - pro虽强但价贵、响应慢，适合难题。奥特曼预测AI发展，称正为世界建大脑，公开权重模型推迟。>阅读原文

苹果 WWDC：端侧 AI 潜力待挖

池建强：谷歌在 AI 上渐入佳境，苹果却令人失望。苹果侧重端侧模型，如翻译等功能本地实现，数据不外传。虽参数量小，但端侧 AI 或成新战场，苹果在芯片适配有优势。>阅读原文

苹果‘液态玻璃’难倒开发者

苹果在 WWDC 2025 宣布全平台引入‘液态玻璃’UI，人机界面设计副总裁称是全面更新。但此举掩盖其 AI 落后，还让开发者面临功耗、适配难题，Vishnu 建议采用混合开发模式。>阅读原文

奥特曼：AI奇点渐近，2030大转折

奥特曼：人类已跨越AI发展临界点，进入加速阶段。预测2025 - 2030年AI将带来巨大变化，奇点悄然渗透，AI研究自我强化，迈向超级智能时代需解决安全和普及问题。>阅读原文

2025哥德尔奖揭晓

2025年哥德尔奖颁给Eshan Chattopadhyay和David Zuckerman。他们2016年论文构造双源提取器，解决近30年难题，还建立伪随机性子领域联系，获高度认可。>阅读原文

AI眼镜市场竞争激烈待磨合

光锥智能：今年5月AI眼镜新品频出，硬件芯片变强、软件借大模型落地功能，形成代工产业链。但国内AI眼镜AI和软件功能欠佳，与市场需磨合，可参考Meta解法。>阅读原文

苹果WWDC 2025：AI慢步是大棋

作者认为苹果在WWDC 2025未急于推AI应用并非保守，而是将创新交予开发者，规避风险。待技术成熟，苹果凭优势或“后发先至”，此乃明智之选。>阅读原文

强化学习大佬指LLM致命缺点

强化学习大佬Sergey Levine称，当前大语言模型只是间接「扫描」人类思维，像困在洞穴看「投影」。虽能模拟部分认知功能，但自主学习弱，未来需探索从物理经验获表征的方法。>阅读原文

面壁 MiniCPM 4.0 展现端侧实力

投资人称中国大模型投资多是商业模式驱动，与硅谷不同。DeepSeek 出圈后独立创新成主流。面壁智能发布 MiniCPM 4.0，在架构、数据等多方面优化，提升端侧效率，展现创新实力。>阅读原文

TypeScript 冲击 Python AI 地位

Mastra AI 创始人：约 60 - 70% YC X25 Agent 公司用 TypeScript 构建 AI Agent。网友认为其有跨平台开发等优势，业内觉得目前 Python 在 AI 开发主导地位难被取代。>阅读原文

中科院：AI「启蒙」自动设计芯片

中国科学院：推出「启蒙」系统，基于AI实现处理器芯片软硬件全流程自动设计，成果比肩或超人类专家，有望改变设计范式，提升效率、满足多样化需求。>阅读原文

Thiel Fellowship 押注 AI 新方向

Thiel Fellowship 今年聚焦 AI 范式变革。热门方向有 AI Infra、金融与生物系统。创始人年轻跨界，解决结构层问题。如 Canopy Labs 构建数字人基础设施，Ivy 推动跨境支付革命。>阅读原文

杭州拱墅将启AI创新创业大赛

杭州市拱墅区等联合主办大赛：聚焦前沿领域，面向全球征集优质项目，设千万奖励，助力拱墅打造AI创新高地，诚邀全球AI英才参赛。>阅读原文

Anthropic CPO：AI成战略伙伴

Anthropic CPO Mike Krieger称，AI正重塑软件开发，约90%代码由AI写，开发瓶颈转移。产品经理有新价值，Anthropic服务开发者。他建议创业者深耕垂直行业，对AI看法转变，鼓励孩子培养好奇心与独立思考。>阅读原文

直播分享音频大模型评测进展

司南评测体系等联合发起直播：马子阳将分享评估音频大模型推理能力的 MMAR；李凯会介绍揭示潜在风险的 AudioTrust；还有圆桌探讨音频大模型瓶颈及发展。>阅读原文

Ilya Sutskever：AI将接管一切

Ilya Sutskever：接受现实别纠结过去。AI已改变学习，未来能完成人类所有任务，会加速人类进步，但也带来使用挑战，发展速度或超预期，影响深远。>阅读原文

OpenAI推o3 - pro碾压竞品

OpenAI：推出最强推理模型o3 - pro，还将o3价格降80%。o3 - pro数学编程能力强，能自动调用工具，但速度慢。网友实测效果好，o3价格降低冲击竞品。>阅读原文

Yoshua Bengio：调整科研防AI风险

Yoshua Bengio：目睹前沿AI行为后，决定调整科研方向降低AGI风险。他指出意图与能力是判断AI危害的关键，还提出构建“科学家AI”，避免其成人类竞争对手。>阅读原文

苹果：iOS 26为AI手机布局

鲸哥：苹果AI能力落后，iOS 26或2026年才兑现AI能力。苹果AI手机思路是端侧分布、辅助先行，UI统一。苹果盈利和销量下滑，此次系统升级关乎未来布局。>阅读原文

产品应用

昆仑万维：SkyReels - Audio让嘴音匹配不难

昆仑万维：提出SkyReels - Audio框架，用于合成动态人脸视频，支持无限长度视频生成与编辑，采用混合课程学习等策略，保障视频视觉和时间一致性，性能媲美闭源模型。>阅读原文

MiniCPM 4.0开启端侧长文本时代

面壁智能和清华推出MiniCPM 4.0，极限加速220倍。它靠原生稀疏技术革新，基准测试表现优，适配全平台，有多样应用，宣告端侧长文本时代已至，端侧模型比赛或结束。>阅读原文

1.93bit版DeepSeek - R1实力出众

1.93bit版DeepSeek - R1编程超Claude 4 Sonnet，在aider榜单成绩优。Unsloth制作多量化版本，小版本无GPU可运行。R1 - 0528在游戏评测基准Lmgame Bench中表现出色。>阅读原文

SPAD - SoC成激光雷达主流之选

雪岭飞花：SPAD - SoC是激光雷达核心，因角分辨率高、数字化信号处理等优势，会成主流。虽有饱和串扰、工艺难度高等挑战，但正被克服，速腾、禾赛等多家企业已布局应用。>阅读原文

苹果新模型超 Qwen 2.5？

苹果：在 WWDC 推新一代语言基座模型，可在苹果芯片高效运行，改进推理能力。设备端模型表现优于 Qwen-2.5-3B，三行代码即可接入 Apple Intelligence 框架，正测试，下月公开测试版。>阅读原文

面壁MiniCPM4.0端侧模型发布

面壁智能：发布MiniCPM4.0端侧模型，8B版长文本推理5倍提速，最高220倍加速；0.5B版以小博大。采用InfLLM架构，实现多方面优化，适配多芯片与框架，拓展应用潜力。>阅读原文

面壁MiniCPM4碾压Qwen3

面壁：发布MiniCPM4系列10个模型，推理速度3倍于同尺寸Qwen3。该模型有高效架构、算法和训练数据，还给出实战代码与参数设置，性能亮眼。>阅读原文

Seedance 1.0 pro测评惊艳

作者：字节跳动的视频生成模型Seedance 1.0 pro很牛，多镜头组合、运动质量等方面无短板，在多方面领先，已开放企业用户，今日豆包App全量上线，AI视频越来越卷，利好用户。>阅读原文

藏师傅：提示词实现液态玻璃效果

藏师傅：苹果 WWDC2025 液态玻璃效果将流行，我探索出融入网页生成的提示词，在 Gemini 等模型有不同效果，使用有注意事项，推荐用 Gemini 2.5 Pro 生成。>阅读原文

值得买科技：布局AI电商生态

值得买科技CTO王云峰认为，开放数据是出于对电商消费行业的认知洞察。其发布海纳MCP Server，能输出消费服务，推动AI生态。还落地多个AI应用，用技术为用户带来个性化购物体验。>阅读原文

Gemini夺冠高考数学大模型测评

机器之心重新测评大模型做高考数学题能力，Gemini 2.5 Pro总分145分夺冠，Doubao和DeepSeek R1以144分并列第二。解答题是失分重灾区，多模态大模型图像识别全栽了。>阅读原文

开源动态

清华&面壁开源MiniCPM 4

清华和面壁智能：开源MiniCPM 4，仅用22%训练开销达同级别最优。它多方面创新，推理高效、性能领先，适用于综述生成和工具调用，在多场景展现强大适应性。>阅读原文

DeepMath-103K突破数学推理瓶颈

腾讯AI Lab与上海交大团队：现有数据集缺陷多，推出DeepMath - 103K解决数据瓶颈。该数据集优势显著，让DeepMath系列模型达SOTA，还能实现推理泛化。>阅读原文

玉盘AI：SRDA直击算力痛点

新智元报道，国内20人玉盘AI团队提前预判DeepSeek构想，推出SRDA架构。它从硬件源头解决AI算力瓶颈，设计创新，契合前沿需求，或成大模型专用架构分水岭，近期将发布demo。>阅读原文

西湖大学：FlowDirector革新视频编辑

西湖大学AGILab提出FlowDirector视频编辑新方法，无需反演和训练。它开销低、支持广、能保持背景，还通过空间矫正和差分平均引导优化，实验多指标达SOTA。>阅读原文

从browser - use看Agent实现

作者认为，从browser - use可了解Agent实现，其有记忆、规划、工具等要素。不同范式适不同任务，精确prompt能稳定输出。还可集成MCP扩展能力，期待完美Agent形态。>阅读原文

港科&快手开源图像视频生成新范式

港科联合快手：推出 EvoSearch 方法，用于图像和视频生成，无需训练和梯度更新，能提升模型生成质量，在多项任务表现优，论文与代码已开源。>阅读原文

Fluxions - AI开源语音模型Vui

Fluxions - AI团队：开源轻量级语音模型Vui，能模拟语气词、笑声，有三款模型，可本地部署，适用于语音助手、播客生成等场景，解决传统模型痛点。>阅读原文

小华：Rembg 开源抠图神器超牛

小华：Rembg 是基于 Python 的开源抠图工具，累积 19.1K ⭐。它功能多、架构优，适用于电商等 5 大场景，与同类比通用性强，因精准、易用、生态全成爆款。>阅读原文

MiniCPM 4.0让苹果本地模型提速220倍

苹果开放本地模型API，开发者遇运行慢难题。面壁智能MiniCPM 4.0端侧处理长文本最快提220倍，从架构等四层创新，补上推理框架缺口，将激活开发者生态。>阅读原文

Agentic - Doc：文档提取神器

LandingAI的Agentic Document Extraction SDK：支持多格式文档处理，具备多种核心功能和优势模块。在多行业应用效果好，速度提升17倍，对比同类项目优势明显，是文档智能化升级优选。>阅读原文

算法论文

ViSA - Flow 框架突破机器人学习

密歇根大学和瑞典皇家理工学院团队：提出 ViSA - Flow 框架，10% 训练数据就能在 CALVIN 测试超越 100% 数据方法，有数据高效等优势，但也有 3D 建模缺失等局限。>阅读原文

AI智能体实现自我进化

作者构建多智能体协作自进化系统，设计四层架构让AI自我进化。实验表明，有自进化能力的智能体远超静态系统，Claude 3.7提升显著，代码级进化展现自主探索软件系统潜力。>阅读原文

RaML框架揭秘LLM推理机制

上海AI Lab团队：提出RaML框架，揭示LLM推理如梯度下降，将推理训练置于元学习框架。对比SFT与RL，发现其各有优势，还证明推理轨迹可提升性能，泛化性佳，框架能指导优化。>阅读原文

上交腾讯：PolyVivid超越现有模型

上交与腾讯：提出PolyVivid多主体视频定制框架，通过多种技术实现身份一致的视频生成，在多方面超越现有方法，有高实用价值，但参数微调方法应用需谨慎。>阅读原文

研究者首提自动化失败归因课题

宾夕法尼亚州立大学等联合研究：首次提出“自动化失败归因”课题，构建Who&When数据集，开发三种归因方法。实验显示当前方法离完美远，不同方法各有优劣，任务艰巨。>阅读原文

论文：LRM推理能力存短板

论文：当前LRM可能是“思考秀演员”，遇复杂问题崩溃。用谜题测试有三大发现，如越难越偷懒等。还指出行业依赖数学测试等痛点，短期要突破一致性，长期或需新架构。>阅读原文

李飞飞团队：嫁接 DiT 架构升级

李飞飞团队：提出「嫁接」技术，不训练直接编辑预训练 DiT 架构，模型深度减半质量还提高。实验显示，该技术构建高效架构有效，用于文生图模型能加速且质量损失小。>阅读原文

综述解析3D场景生成方法

南洋理工大学研究者：3D场景生成领域研究增长快，将现有方法分四大范式，指出当前面临生成能力不均衡等挑战，未来要在保真度、物理约束、交互性、感知生成一体化上发展。>阅读原文

剑桥MTLA：推理加速显存减半

剑桥大学：提出MTLA注意力机制，结合时空压缩策略，推理加速5倍、显存减至1/8，在多任务表现出色，有望成自注意力模块替代方案，代码已开源。>阅读原文

扩散与自回归模型效率大比拼

北大与蚂蚁集团研究：扩散语言模型在生成流畅文本时有优势，但在对序列准确性要求高的任务上，因采样步数和计算成本问题，自回归模型更优，选模型要按需而定。>阅读原文

上交大等：IDEAL缓解LLM偏科

上海交大&上海AI Lab团队：提出IDEAL方法，能缓解LLM偏科，提升综合性能。实验表明SFT阶段数据数量非关键，配比不合适会加剧“偏科”，还给出超参数m的最佳取值。>阅读原文

新基准测大模型，最高仅40分

北大伯克利团队：新基准IDA - Bench专治大模型‘不听话’。顶尖大模型任务成功率最高40%，Claude过度自信、Gemini过度谨慎，当前LLM Agent在多方面待改进。>阅读原文

英伟达港大：GSPN加速视觉生成

香港大学与英伟达：联合推出GSPN革新视觉注意力机制，计算量降低，保留空间连贯性。在图像分类、生成等任务表现出色，高分辨率生成加速超84倍，有学术到工业落地潜力。>阅读原文

微软：强化预训练革新Next-Token范式

微软：提出强化预训练（RPT）范式，将Next-Token预测转为推理任务。利用海量文本，降低风险，提升准确性。实验显示RPT在语言建模等多方面表现出色，有推动语言模型预训练的潜力。>阅读原文

Product Application

1. MonkeyOCR吊打MinerU等模型

MonkeyOCR：采用SRR三元组范式，在性能上优于MinerU、Gemini 2.5 Pro等，处理速度达0.84页/秒，但对扫描件效果不好，换大模型效果可能更佳。>阅读原文

    </p>

官网：www.AiReadingHub.com