index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本周的Hunt Good周报聚焦AI领域的最新进展,涵盖了迪士尼和环球影业起诉Midjourney的版权争议、Meta斥巨资收购Scale AI、Builder.ai伪装AI事件的澄清、Mattel与OpenAI合作开发AI玩具、苹果AI推理模型测试方法的争议、新版Siri的发布时间、特斯拉起诉前工程师窃取商业机密等。同时,也介绍了Dia浏览器、腾讯开源混元3D 2.1大模型、AMD与OpenAI合作发布AI芯片、Meta发布世界模型V-JEPA 2、OpenAI o3-pro推理模型发布、Mistral推出推理模型Magistral以及Veo 3生成的NBA总决赛广告。
🧑⚖️ 迪士尼和环球影业起诉Midjourney,指控其侵犯版权,这标志着IP巨头首次就AI侵权问题采取法律行动,引发了对AI生成内容版权问题的关注。
💰 Meta斥资143亿美元收购Scale AI,并招募其CEO加入Meta的AI团队,旨在加强其在AI领域的发展,并加速实现AGI(通用人工智能)的目标,与Google和OpenAI展开竞争。
🧸 Mattel与OpenAI合作,计划将生成式AI引入玩具制造行业,并开发AI驱动的产品,这预示着AI技术在传统行业的应用,以及玩具和游戏玩法方式的创新。
🍎 苹果的AI推理模型论文引发争议,研究员指出苹果的测试方法存在问题,认为AI模型并非不会推理,而是受到表达方式的限制,揭示了大模型推理能力的局限性。
🐧 腾讯开源混元3D 2.1大模型,并降低了开发门槛,开源并且支持消费级显卡部署,轻游梦工坊使用混元3D在多条美术管线完成提效,道具管线制作周期由 2 天/个降低至 0.2 天/个。
发现明日产品的 2025-06-15 11:56 广东
8 条新鲜资讯 5个有用工具 1 个有趣案例 3 个鲜明观点

对论文作者「是实习生」的质疑,是无效的人身攻击,论文由多个经验丰富的作者联合完成,第一作者虽为实习生,但也是一名活跃的博士研究者。
有迹象表明更大模型在某些任务中表现更好,但无法提前预知「多大才够」,性能波动大,稍微改变任务复杂度或形式就可能失败,无法作为稳定解决方案。
在某些情况下,模型能通过写代码解决任务,这是神经符号 AI 的胜利。但苹果论文探讨的是模型是否具备「自主推理和解题」的能力,而非是否会调用已有代码库,就像学生会用数学软件一样,并不意味着他理解了积分原理。
即便只有四个案例,其中一个(汉诺塔)有瑕疵,但泛化能力差的问题,业界其实早已知道,这篇论文与已有的大量研究结论一致,强化了对大模型推理局限的观察。
Gary Marcus 原文:https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple论文地址:https://arxiv.org/pdf/2506.09250🎤 新版 Siri 预计 2026 年春季推出日前,苹果软件工程高级副总裁 Craig Federighi 和苹果全球营销高级副总裁 Greg Joswiak(简称 Joz)接受《Tom‘s Guide》采访,两位副总裁在节目中透露了更多苹果 AI 开发细节。面对备受诟病的 Siri,Craig 也再一次承认了「高估研发能力」。其透露,内部讨论了两个版本的 Siri 架构,其中受架构限制,团队深知无法满足用户需求,因此不得不放弃原计划的 V1 版本,转向 V2 版本。对于 V2 版本,Craig 并没有透露太多信息,但留下了「将准备宣布推送的日期了,你们都准备好体验它吧!」。
彭博社记者 Mark Gurman 也援引知情人士消息称,苹果计划将新版 Siri 定在 2026 年春季发布,跟随 iOS 26.4 版本一同登场。报道透露,新版 Siri 将接入用户个人数据和屏幕活动,以便更好地满足 Siri 获取用户需求。而在《Tom‘s Guide》采访中,Joz 也表示,苹果 AI 的任务是通过理解用户提供的上下文内容,去自主匹配哪些功能的体验最合适,并尽所能发挥作用。同时他也强调,目前 Apple Intelligence 中展现的功能,并非苹果终点。据他透露,苹果希望让名为「智能」的软件消失,但能让 AI 助力用户把每天的事情变得更好。值得一提的是,苹果在今年 WWDC25 上,宣布推出全新 API「Foundation Models Framework」,允许第三方开发者调用 Apple Intelligence 核心的大型语言模型(LLM),并将其集成到自家应用中。🔗 https://www.bloomberg.com/news/articles/2025-06-12/apple-targets-spring-2026-for-release-of-delayed-siri-ai-upgrade?srnd=phx-ai📜 特斯拉起诉前 Optimus 工程师窃取商业机密特斯拉于 6 月 12 日起诉前工程师 Zhongjie 「Jay」 Li,指控他窃取了与特斯拉人形机器人项目 Optimus 相关的商业机密,并利用这些机密创办了竞争对手公司 Proception。
诉状称,Li 在 2022 年 8 月至 2024 年 9 月期间,使用两部个人智能手机下载了有关特斯拉开发的「先进机器人手部传感器」的机密信息,随后用于创建自己的机器人手部初创公司 Proception。诉状还指出,在离职前的几个月,Li 在工作电脑上研究了「人形机器人手部」的信息,并查找了与风险投资和创业资金相关的资料。Proception 网站称,公司旨在「通过打造世界上最先进的人形手部,彻底改变人类与机器人之间的互动」。特斯拉的 Optimus 机器人项目自 2021 年宣布后进展缓慢,尽管最初计划于 2023 年发布,Elon Musk 已表示该机器人将于 2026 年上市。🔗 https://techcrunch.com/2025/06/12/the-meta-ai-app-is-a-privacy-disaster/🔍 Dia 面向已有 Arc 用户开放测试版The Browser Company 推出的以 AI 为核心的全新浏览器现已对 Arc 会员开放。(体验链接:https://www.diabrowser.com/)虽然 Dia 还处于测试阶段,仅适用于 Mac,但其核心目标非常明确:通过 AI 技术将日常的网络浏览体验提升到新的层次。
Dia 内置了一个类似 ChatGPT 的 AI 聊天工具。用户可以随时呼叫 AI 助手,进行网站内容查询、任务管理和浏览历史回顾,简化信息获取和操作流程。通过分析用户的浏览习惯和网站访问记录,Dia 提供了高度个性化的功能。例如,用户可以使用 Dia 进行饮食规划、学习帮助或约会建议等。浏览器的 URL 栏不仅能进行网页搜索,还能调用 AI 助手,增强互动性。我们之前也体验过 Dia 浏览器,欢迎回看~实测超火的 AI 浏览器 Dia,我看到了浏览器未来的 iPhone 时刻 🔗 https://techcrunch.com/2025/06/11/the-browser-company-launches-its-ai-first-browser-dia-in-beta/Hunt for Tools|先进⼯具🐧 腾讯开源混元 3D 2.1 大模型腾讯在 CVPR2025(计算机视觉领域顶会之一)上,宣布混元 3D 2.1 大模型对外开源。据介绍,这是首个全链路开源的工业级 3D 生成大模型,达到了行业领先水平。相较于混元 3D 2.0 模型,新模型既优化了几何生成的质量,也开放了PBR(基于物理的渲染)材质生成大模型。新模型可生成基础颜色、金属度、法线、粗糙度等贴图,支持皮革、木质、金属、陶瓷等多种复杂材质的高质量渲染。
相较传统 RGB 贴图技术,PBR技术通过模拟光线与材质的物理交互,提升模型在不同光照环境下的视觉一致性。在用户盲测中,混元 3D 2.1 模型的 PBR 纹理相较于 RGB 贴图,质感胜出率高达 78%。腾讯方面表示,混元 3D 2.1 降低了开发门槛:全链路开源并且支持消费级显卡部署。另外,在实际应用中,轻游梦工坊使用混元 3D 在多条美术管线完成提效,道具管线制作周期由 2 天/个降低至 0.2 天/个。目前,腾讯混元 3D 2.1 已上架。开源网址:https://3d-models.hunyuan.tencent.com/体验网址:https://3d.hunyuan.tencent.com/👀 AMD 联合 OpenAI 发布超强 AI 芯片本周,AMD 举行 2025 全球 AI 发展大会。OpenAI CEO Sam Altman 出席本次大会,并与 AMD 联合发布了 Instinct MI400、Instinct MI350 系列 AI 芯片。会上,Altman 也直呼「令人惊叹」:「第一次得知芯片规格时,我感觉不可能,这听起来十分疯狂。」具体来看:AMD Instinct MI400 系列:AMD 下一代旗舰 AI 芯片;将作为全新 AI 服务器「Helios」的核心硬件。
预计搭载最高 432GB 的 HBM4 高速显存。
FP4 精度下可达 40 PFLOPS 的算力。
配备 300GB/s 的 scale-out 带宽,通过 UALink 开放标准技术实现 72 个 GPU 无缝互联,使整个「Helios」内的 GPU 能作为统一计算单元协同工作。
MI400 预计将在 2026 年上市。
会上,AMD CEO 苏姿丰表示,MI400 系列的竞争对手将会是英伟达的「Vera Rubin」AI 芯片。
据悉,英伟达于今年 3 月正式公布了下一代 AI 芯片「Vera Rubin」。CEO 黄仁勋表示,Rubin 的性能将达到 Hopper 的 900 倍,而 Blackwell 相较 Hopper 已实现了 68 倍的提升。Vera Rubin 预计将在 2026 年下半年发布。AMD Instinct MI350 系列: 基于 AMD CDNA 4 架构打造,拥有 MI350X 和 MI355X 两个版本。
MI355X 在 FP4 性能上达到了 161 PFLOPS,而 MI350X 则在 FP16 性能上达到了 36.8 PFLOPS。
提供灵活的冷却配置:支持风冷和液冷,允许大规模部署。
AMD 表示,得益于 MI350 系列相较于竞争对手功耗更低,MI355X 每美元可以提供比英伟达芯片多 40% 的 token。
🔗 https://www.cnbc.com/2025/06/12/amd-mi400-ai-chips-openai-sam-altman.html🏆 Meta 发布世界模型,图灵奖得主背书日前,Meta 开源了最新的重量级模型——V-JEPA 2。Meta 方面称,V-JEPA 2 的目标是让 AI 能够看懂世界、具备物理推理能力,并在完全陌生的环境中自主完成一系列实际操作任务。而图灵奖得主、Meta 首席科学家 Yann Lecun 也亲自出镜,为 V-JEPA 2 背书,强调让机器理解物理规则的重要性,认为世界模型能够拥有像人类一样理解世界的常识,不靠海量试错,也能在真实物理世界中行动自如。
据悉,V-JEPA 2 基于 Meta 在 2022 年提出的「联合嵌入预测」架构,旨在通过预测抽象表示而非生成像素或文本,提升模型对物理世界的理解能力。该模型拥有 12 亿参数,并能够能基于画面推测接下来会发生什么。V-JEPA 2 能提供「理解」「预测」「规划」三个步骤,为 AI 提供「真正行动前能先在脑中推演一遍结果再行动」的模拟。另外,Meta 还发布了三项新基准测试:IntPhys 2、Minimal Video Pairs、CausalVQA,用于评估模型对视频中物理世界的理解与推理能力。🔗 https://ai.meta.com/vjepa/🤯 OpenAI o3-pro 正式发布本周,OpenAI 正式发布 o3-pro 推理模型,基于 o3 所打造,拥有更强的数学、科学、编程等领域的表现。性能表现上:o3-pro 在专家评估中,评审人员普遍认为 o3 Pro 在多方面都比 o3 模型更进一步,尤其适合用在科学、教育、编程、商业和写作这些需要深度输出的任务中。
在学术评估的基准测试中,o3-pro 的整体表现持续优于 o1-pro 和 o3。
OpenAI 还通过四次尝试获取正确答案的方式进行实验发现,o3-pro 能保持较好的性能表现。
据介绍,o3-pro 与 o3 系列一样拥有 200K 的上下文窗口和 100K 的输出。
与 o3 一样,o3-pro 也可调用工具,从而支持搜索、分析文件、视觉推理、使用 Python 等。值得一提的是,o3-pro 支持工具访问,因此响应速度相较于 o1-pro 要更慢。目前,o3-pro 已向 Pro 和 Team 用户提供,取代 o1-pro;企业版和教育版用户将在下周获得使用权限。价格方面,o3-pro 输入为 20 美元/百万 token,输出 80 美元/百万 token;而 OpenAI CEO Sam Altman 宣布,o3 降价 80%——因此 o3 价格来到了输出 2 美元/百万 token、输入 8 美元/百万 token。🔗 https://platform.openai.com/docs/models/o3-pro👏 Mistral 推出首个推理模型日前,欧洲 AI 初创公司 Mistral 推出首个推理模型 Magistral。据官方介绍,Magistral 是一个专注于现实世界推理和反馈驱动的双版本模型,拥有 24B 的 Small 开源版本和更大的 Mdeium 企业版本。官方表示,Magistral 针对多步逻辑进行微调,并能提供透明化的思考过程;支持多语言推理。
性能表现上,Magistral Medium 在多项基准测试中未超过 DeepSeek-R1,但表现接近;相较于自家 Mistral-Mdeium 3,则有了较大的表现提升。较小的 Small 版本在 AIME2024 测试中得分与 Mdeium 版本接近。据 Mistral 测试,在 Le Chat 中使用 Flash Answers,Magistral Medium 的 token 吞吐量比大多数竞品快 10 倍。值得一提的是,Mistral CEO Arthur Mensch 日前在接受 CNBC 采访时表示,Magistral 在数学、编程表现出色。目前,Magistral Small 已上架 HuggingFace,而 Medium 版本则 Le Chat、La Plateforme 提供预览版 API。🔗 HuggingFace:https://huggingface.co/mistralai/Magistral-Small-2506Hunt for Fun|先玩🏀 NBA 总决赛期间播出的广告由 Veo 3 生成在刚刚结束的 NBA 总决赛,一则由 AI 生成的广告成功吸引了观众的目光。自称「AI 电影制片人」的 PJ Accetturo 透露,预测平台 Kalshi 雇佣他利用 Google 的文生视频 Veo 3 制作广告,脚本撰写则借助了 Gemini 聊天机器人,并搭配 ChatGPT 进行创意生成。
他表示,生成这则广告共需 300-400 次生成,才得到 15 个可用片段。「1 个人,2-3 天。这比传统广告节省了 95% 的成本。」这段 AI 生成的视频展示了人们在一些奇特事件上的投注,比如俄克拉荷马城雷霆队或印第安纳步行者队会赢 NBA 总决赛、今年会有多少次飓风,或者本月鸡蛋价格会不会涨。画面快速切换,有一个戴牛仔帽抱吉娃娃的老人、一位在鸡蛋池里游泳的人,还有一个外星人正在大喝啤酒。Kalshi 表示该广告预计将在多个平台上获得超过 2000 万次曝光,公司也已计划继续使用 AI 制作更多内容。「我们一开始并没打算做 AI 视频,但现实条件促使我们做出了选择。事实证明,这一决策非常成功。」🔗 https://x.com/Kalshi/status/1932891608388681791Hunt for insights|先知🧑🏫 AI 会取代一半初级白领岗位?英伟达 CEO 反驳6 月 11 日,在第九届 VivaTech 科技展上,当黄仁勋被问及 Amodei 预测 AI 可能在五年内消灭多达一半的初级白领岗位时,他公开反驳了这一观点,并对限制 AI 发展只由少数几家公司主导的理念表示不认可。「首先,他(Amodei)认为 AI 太可怕了,只有他们(Anthropic)才能做;第二,他觉得 AI 太昂贵了,其他人都不应该碰;第三,他认为 AI 太强大了,所有人都会因此失业,这也正是他们主张只由自己来开发 AI 的理由。」
他这样评价 Amodei:「我认为,AI 是非常重要的技术,我们应该以安全和负责任的方式去研发和推进。」黄仁勋继续说道,「如果你真想确保事情安全可靠,就应该让它在公开的环境中进行……不要躲在黑屋子里搞完了再跟我说『这是安全的』。」不过,黄仁勋也认为,AI 确实会对部分工作产生影响。「每个人的工作都会有所改变。有些职位会被淘汰,但也会创造出许多新岗位……每当企业效率提升,他们往往会雇更多人。」🔗 https://fortune.com/2025/06/11/nvidia-jensen-huang-disagress-anthropic-ceo-dario-amodei-ai-jobs/💡 OpenAI Codex 团队:未来的 Agent 会趋向独立日前,OpenAI 编程产品 Codex 的研究员 Hanson Wang 和产品负责人 Alexander Embiricos 在接受了红衫资本的采访,并分享了 Codex 的理念、对未来 AI 编程产品的设想。采访中,Embiricos 提到,Codex 就像一个思想实验——它拥有自己的电脑,能够独立于用户的工作,用户需要做的就是将任务「委托」给 Codex。
Embiricos 也强调,Codex 就是 OpenAI Agentic 编程的品牌产品,而公司的愿景就是:未来有一个 Agent,它大部分时间在自己的电脑工作,但也能在任何用户需要的工具中起到协助作用。颇有一点「独立编程 Agent」的感觉。对于 Codex 甚至是 Agent 的未来,Hanson 和 Embiricos 都强调,OpenAI 现在构建的方向,是无论用户从事任何职业,所有容易自动化的工作(通常是那些比较繁琐的工作),用户都不必亲自去做,而是可以委托出去,让 Agent 来进行。至于那些有趣的、带挑战性的,则是用户自己来主导。同时 Embiricos 也表示,OpenAI 不会一来就用 AI 的方式改变用户习惯,而是让用户在做这件事上变得更简单,让一切做起来更容易。有趣的是,Embiricos 还在采访中开玩笑式构建了对未来 Agent 使用场景的想象:作为一名创业者,团队只需要几个创始人和许多 Agent,就能像刷抖音、TikTok 一样,在一个 Agent 生成方案、想法的信息流里,挑选出自己想要的内容,来进行下一步。🔗 采访原文:https://www.sequoiacap.com/podcast/training-data-openai-codex/💥 揭秘 Claude 多 Agent「研究」功能,还有宝贵的经验分享Anthropic 首次全面披露旗下 AI 模型 Claude 实现「多 Agnet 协作」研究能力的解读。这项功能已支持在网页、Google Workspace 等平台中完成复杂搜索任务。Claude 研究团队认为,搜索的本质是一种「压缩」过程,也就是从海量信息中提炼出有价值的观点。传统 AI 模型大多采用线性流程,一次性生成答案,适用于结构明确、路径清晰的任务。而研究类任务本质上充满不确定性,需要根据阶段性发现灵活调整方向,多轮判断、并行探索成为必要条件。不过,这种灵活性也伴随着极高的工程代价。多 Agent 任务的 token 消耗约为日常对话的 15 倍。在 BrowseComp 测试中,三大因素解释了 95% 的性能差异:Token 使用量(占 80%)、工具调用次数、以及模型选择。因此,多 Agent 协作任务主要适用于信息量庞大、任务价值较高的复杂查询,而非普通问答场景。
多协作 Agent 架构如何运作:Claude 的研究系统由一个主 Agnet 根据用户请求制定策略,并生成多个子 Agnet 并行查找信息,各自独立运行后将结果汇总,完成深入研究。与传统的检索增强生成(RAG)相比,这样的架构具备动态搜索、多轮分析、结果适应性强等优势。流程如下:1.用户提交查询。
2.主 Agnet 制定计划并将其保存至记忆模块(用于超过 20 万 token 的长上下文保持)。
3.主 Agnet 生成多个子 Agnet(数量不固定)并赋予不同的研究任务。
4.子 Agnet 分别进行搜索、评估结果并将信息返回主 Agnet。
5.主 Agnet 整合结果,并视情况生成更多子 Agnet 或调整策略。
6.当信息足够时,交由引用 Agent 标注引用并整理完整报告。
7.返回包含引用的最终研究结果。
用 Claude 研究团队的话来说:「我们并非为 Agnet 制定死板规则,而是借助提示传授高效的启发式策略。例如:分解任务、评估信息质量、灵活调整搜索路径、判断何时深入 vs 广度探索等。」附上原文:https://www.anthropic.com/engineering/built-multi-agent-research-system彩蛋时间
作者:@azed_ai工具:GPT-4oPrompt:A high-resolution advertising photograph of a realistic, miniature [想要生成的产品] held delicately between a person's thumb and index finger. clean and white background, studio lighting, soft shadows. The hand is well-groomed, natural skin tone, and positioned to highlight the product’s shape and details. The product appears extremely small but hyper-detailed and brand-accurate, centered in the frame with a shallow depth of field. Emulates luxury product photography and minimalist commercial style.链接:https://x.com/azed_ai/status/1933901224044294417 ![图片]()
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇

我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗






















阅读原文
跳转微信打开