Manus破圈、质疑与回应，复现项目爆火/雷军回应AI语音恶搞/曝OpenAI博士级智能体2万美元/月|Hunt Good周报

发现明日产品的 2025-03-09 11:56 广东

11 条新鲜资讯 5 个有用工具 3 个有趣案例 4 个鲜明观点

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

11 条新鲜资讯
5 个有用工具
3 个有趣案例
4 个鲜明观点

Hunt for News｜先进头条

? 雷军回应 AI 语音被恶搞

据红星新闻报道，昨日，在十四届全国人大三次会议北京市代表团小组会议上，全国人大代表、小米集团创始人雷军分享了自己遭遇 AI 换脸技术滥用的亲身经历，并呼吁相关部门加强对人工智能新技术应用的立法监管。

雷军在会上表示，这两年人工智能技术快速突破以后，出现了很多老百姓喜闻乐见的应用，比如 AI 换脸、拟声等，但任何一个人的脸和声音都能轻松被用来做各种视频，成了新的违法重灾区。

雷军阐述自身经历说：「去年『十一』，有网友说过了 7 天假，被我整整骂了 8 天，刚开始我觉得网民拿我开涮我也能接受。但这类内容增多且质量低劣后，防不胜防，网友也纷纷投诉。」

雷军表示，当他想通过法律维权时，却发现对此没有专门的立法，只能用隐私权、肖像权、名誉权等法律起诉，而这些都要量化损失。

「在网上被骂 8 天，损失根本没法量化。」雷军说。雷军在发言中呼吁，人工智能技术兴起以后产生了很多新问题，相关部门要提前预判，提前立法。

值得一提的是，雷军在此前公布的 2025 两会建议就提到，加强「AI 换脸拟声」违法侵权重灾区治理。

「人工智能深度合成技术的快速发展，推动了『AI 换脸拟声』在影视、广告、社交等领域的广泛兴起，成为喜闻乐见、传播力强、易成热点的技术应用。但同时也看到，『AI 换脸拟声』不当滥用成为违法侵权行为的重灾区，易引发侵犯肖像权、侵犯公民个人信息以及诈骗等犯罪行为，不利于构建『以人为本、智能向善』的人工智能发展生态。」

? 苹果承认 Siri 新功能开发延迟

苹果公司近日正式确认，将推迟发布部分 Apple Intelligence 功能，特别是「更加个性化的 Siri」体验。

据苹果发言人 Jacqueline Roy 表示，这些新功能的开发「需要比预想更长的时间」，预计将在「明年」才能向用户推出。

在去年 6 月的 WWDC 开发者大会上，苹果曾重点宣传了 Siri 的全面升级计划，承诺通过 Apple Intelligence 技术让 Siri 具备个人背景感知能力，从而为用户提供更加个性化的服务。

这些功能包括能够在用户的各种应用中搜索和提取信息，例如从邮件、短信或笔记中找出特定内容；具备屏幕感知能力，可以理解并执行与屏幕内容相关的指令；以及跨应用操作功能，让用户能够通过语音在不同应用间无缝执行复杂任务。

尽管推迟了这些功能，苹果在过去六个月中仍推出了一系列 Apple Intelligence 相关功能，包括让 Siri 更具对话性、引入 ChatGPT 集成、添加写作工具、生成表情、图片游乐场、减少干扰模式、邮件和消息摘要、智能回复以及照片 app 中的自然语言搜索等功能。

? https://9to5mac.com/2025/03/07/apple-intelligence-personal-siri-delayed/

✊ 蜜月期结束，微软自研 AI 模型

据 The Information 援引知情人士消息称，微软公司已成功研发一系列内部人工智能模型，名为 MAI，其测试性能表明可与 OpenAI 和 Anthropic 的模型相媲美。

这些模型有望为微软的 Copilot 智能助手提供支持，增强其处理用户问题和提供具体建议的能力。

除基础模型外，微软还在开发「推理模型」，旨在解决更复杂的查询并展现类人思维能力。值得注意的是，微软上月已将 OpenAI 的 o1 推理模型整合进 Copilot 产品中。

有趣的是，报道中提到微软希望能够查看 OpenAI o1 模型在推理过程中的「思维链」，以便在自家的 AI 模型中复制相关技术。然而，OpenAI 拒绝了微软的要求，这也让微软的研究团队在研发自己的 AI 模型时遇到了困难。

此外，微软发言人表示，公司正采用混合模型策略，包括继续与 OpenAI 保持深度合作，同时利用自研 AI 模型和开源模型。这一策略可能减轻微软对 OpenAI 的依赖，后者已获得微软约 130 亿美元的投资。

两家公司最近重新谈判合作协议，允许 OpenAI 在某些条件下使用其他云计算服务商的服务器，该协议将持续至 2030 年。

微软首席财务官艾米·胡德在近期会议上强调，双方都在为未来十年乃至二十年的发展做规划。除 MAI 外，微软已推出名为 Phi 的小型模型，并销售多家公司的 AI 模型产品。

据报道，微软还测试了包括 Anthropic、Meta 和马斯克的 xAI 等公司模型作为 Copilot 的备选方案。艾米·胡德表示，虽然微软为拥有 OpenAI 的领先模型感到自豪，但也需要构建和引入其他模型以确保选择多样性。

? https://www.theinformation.com/articles/microsofts-ai-guru-wants-independence-from-openai-thats-easier-said-than-done?rc=a4cwro

? Manus 发布、质疑与回应，复现项目爆火

近日，时下火热的 AI Agent 产品「Manus」开通了其 X 账号「ManusAI_HQ」。但在前日，Manus 的 X 账号突然被封禁，并显示账号违反了 X 的社区规则。

随后，Manus 联合创始人兼首席科学家 Yichao Peak Ji（季逸超）在 X 平台发文称，据初步调查，本次账号封禁可能与加密货币骗局有关。季逸超强调，Manus 未涉及加密货币项目、代币发行或者区块链倡议，并提醒任何与 Manus 关联的加密货币项目都为骗局，而公司也正在对该类冒名者进行起诉。

此外，季逸超强调目前正在努力与 X 平台的支持团队联系，并重新恢复账号运营。截至目前，账号已解除封禁。

Manus 于 3 月 5 日晚间正式亮相，号称其为全球首个通用 AI Agent 产品。一经公布后，Manus 迅速在互联网各大社交平台引起热议。但目前 Manus 采用邀请码的方式进行内测，且邀请码数量有限，导致出现「一码难求」的情况，在某二手平台甚至出现高达 5 万元的「转手邀请码」价格。

Manus AI 合伙人张涛也在近日发文回应称，团队低估了大众的热情，目前服务器资源无法满足市场需求，因此只好采用邀请码机制，同时也表示团队正在全力输出，争取让大家早日体验到更好的产品。同时，张涛还澄清了「付费获取邀请码」的传闻，并透露 Manus 从未投入任何市场推广预算。

随着 Manus 在国内的爆火出圈，其声浪也逐渐在国外的 Reddit 和 X 平台泛起了涟漪。知名 X 博主 Rowan Cheung 在体验完 Manus 之后，认为其表现「疯狂得令人深刻」。

在开源领域，近日，MetaGPT 的 4 名团队成员在 GitHub 发布了名为「OpenManus」的开源项目，旨在复刻 Manus 的核心功能，同时降低使用门槛。

令人惊讶的是，该项目仅花费了 3 小时便开发完成，目前 OpenManus 在 GitHub 已获得超 1 万的星标。据官方介绍，OpenManus 支持 SEO 审计与报告生成，同时采用轻量化设计。

其基于 MetaGPT 的多智能体协作框架，支持利用不同角色分工并自动化生成代码与文档；此外，OpenManus 的开源特性，允许社区为其贡献扩展功能。OpenManus 由 Anthropic computer-use 和 broswer-use 提供了基础支持。

值得关注的是，OpenManus 与 Manus 有所不同，前者开发目标相较于后者更加侧重技术验证和社区协作，以及 OpenManus 的功能深度更加特定，无法像 Manus 一样覆盖广泛。

同样在 3 月 7 日，CAMEL AI 的 OWL 项目公布，并剑指 Manus。官方表示 OWL 直接做到开源界 GAIA 性能天花板，达到了 58.18%，超越 Huggingface 提出的 Open Deep Research 55.15% 的表现。

据 CAMEL AI 介绍，OWL 通过逆向工程将 Manus 工作流拆解为 6 步，并开源所有模块；支持 GitHub 一键 clone，同时工具链能够自由扩展，执行环境也支持云端和本地任选。

CAMEL AI 强调，OWL 完全免费，且优化了 Token 消耗。值得一提的是，这些热门开源项目的背后作者也不乏 00 后的身影。

? OpenAI 计划推出高端 AI Agent 服务，收费可达 2 万美元

据 The Information 报道，OpenAI 计划推出高端 AI Agent 服务，每月收费最高可达 2 万美元。据悉，此类 Agent 主要针对高水平研究领域，长期目标是使该业务贡献 OpenAI 约 20% 至 25% 的收入。

消息人士称，OpenAI 高管已向投资人透露了明确的定价计划：

面向「高收入知识工作者」的 Agent 收费约 2000 美元 / 月；针对软件开发人员的 Agent 定价约 10000 美元 / 月；而面向博士级别研究工作的 AI Agent 定价则高达 20000 美元 / 月。

据此前的报道，上述的 AI Agent 应用场景包括针对高收入知识工作者的 ChatGPT 版 Agent，用于筛选并排序销售线索；面向资深软件工程师的高级编码助手；以及帮助劳伦斯·利弗莫尔国家实验室研究人员解决核聚变相关问题的 OpenAI o1 模型 Agent。

此外，OpenAI 的投资方之一软银已承诺今年内将在 OpenAI 的 Agent 产品上投入 30 亿美元。

? https://www.theinformation.com/articles/openai-plots-charging-20-000-a-month-for-phd-level-agents?rc=a4cwro

? 联手 Perplexity，德国电信计划年内推出「AI 手机」

德国电信近日在 MWC 上宣布，将与 AI 公司 Perplexity 联合打造一款 AI 手机。

这款手机将于今年下半年正式亮相，并计划在 2026 年正式上市销售，售价将低于 1000 美元，初期主要针对欧洲市场。

Perplexity 联合创始人兼 CEO Aravind Srinivas 表示，Perplexity 正从一个简单的「回答机器」转变为「行动机器」，不仅能回答问题，还能为用户预订航班、安排餐厅、发送邮件、拨打电话、设置提醒等多种任务。

德国电信表示，其推出的 AI 手机能够扮演用户「虚拟助手」的角色。

无论是查找信息、预订出租车、安排餐厅用餐，还是完成购物等任务，都可以通过一个统一的应用程序实现，省去了在不同应用之间来回切换的麻烦。

此外，这款手机内置的人工智能功能还可以优化多种日常操作，例如撰写电子邮件、进行语言翻译、播放音乐以及拨打电话等。

用户只需双击电源键，或者从锁屏界面直接点击，即可进入 Magenta AI 平台。

该平台初期将整合 Perplexity 提供的 AI 助手服务，后续还将陆续引入 Google Cloud AI（内容分析）、ElevenLabs 以及 Picsart 等功能模块，进一步扩展其服务能力。

? https://techcrunch.com/2025/03/03/deutsche-telekom-and-perplexity-announce-new-ai-phone-priced-at-under-1k/

❌ 马斯克阻止 OpenAI 转型营利性公司的诉讼请求被驳回

美国加利福尼亚州奥克兰地区法官伊冯娜·冈萨雷斯·罗杰斯本周驳回了马斯克提出的初步禁令请求。

这项请求本想暂停 OpenAI 向营利模式的转变。不过，法官同意在今年秋季对此案进行审判。法官表示，马斯克没有达到「初步禁令所需的高门槛」。

但她强调，考虑到「公众利益和可能的违法转型带来的潜在危害」，她希望快速解决这起诉讼。

OpenAI 对法官的裁决表示欢迎。他们认为马斯克的诉讼「始终是关于竞争的」，暗指马斯克所创立的竞争对手 xAI。马斯克的律师则表示，他们很高兴法官同意「快速审理此案的核心指控」。

马斯克在 2015 年共同创立了非营利组织 OpenAI，但后续因与团队存在分歧离开 OpenAI。

现在，他指责 OpenAI 背离了最初使命。他认为 OpenAI 本应为人类利益开发人工智能，而非追求企业利润，OpenAI 及其 CEO Sam Altman 否认了这些指控，并表示转向营利模式对于筹集资金、在 AI 竞争中保持优势至关重要。

? https://www.theguardian.com/technology/2025/mar/05/musk-openai-for-profit-shift

? 2024 图灵奖得主正式公布

美国计算机协会（ACM）宣布，Andrew Barto 和 Richard Sutton 荣获 2024 年 ACM A.M. 图灵奖，以表彰他们在强化学习领域奠定的概念与算法基础。

据了解，从 20 世纪 80 年代起， Barto 和 Sutton 通过一系列论文提出了强化学习的核心思想，构建了其数学基础，并开发了关键算法，使其成为智能系统研究中最重要的方法之一。

值得一提的是，被誉为「强化学习之父」的 Richard Sutton，曾是 Barto 的博士及博士后学生，两人的师生合作成就了这一领域的基石。

目前流行的 ChatGPT 和 DeepSeek 均广泛使用了强化学习技术。强化学习的应用还涵盖了多个领域，包括网络拥塞控制、芯片设计、提升聊天机器人的行为和推理能力以及改进计算机科学中的经典问题。

此外，包括 Barto 在内的研究表明，某些强化学习算法实际上是对人脑多巴胺系统运作机制的最佳解释之一，加深了人类对大脑学习过程的理解。

ACM 主席 Yannis Ioannidis 评价表示，Barto 和 Sutton 的贡献不仅仅是一个过渡阶段的成果，而是一个仍在持续发展的领域。强化学习仍在不断进步，不仅推动计算机科学的发展，也为许多其他学科带来了无限可能。因此，ACM 授予他们计算机领域最具影响力的奖项。

? https://awards.acm.org/about/2024-turing?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-s-20-000-ai-agents

?? 全球首个人形机器人半马将在北京亦庄举办

2025 北京亦庄半程马拉松将首次增设人形机器人半程马拉松比赛，赛事主题为「亦马当先，智领未来」。

这场创新赛事将于 4 月 13 日 7 点 30 分鸣枪起跑。根据安排，赛事报名通道将于 3 月 5 日 10 时开放，3 月 11 日 17 时截止。

本次赛事特别之处在于采取「同步报名、同一赛道、同时起跑」的原则，让人形机器人与运动员共同参赛。为确保安全，虽然路线相同，但机器人与运动员将通过铁马或绿化带隔离，拥有单独赛道。

考虑到人形机器人技术的现状，组委会将机器人比赛关门时间设为 3 小时 30 分钟左右。

参赛机器人必须具备人形外观且能实现双足行走或奔跑，明确禁止轮式结构。控制方式可以是手动遥控（包含半自主）或完全自主。

参赛团队需确保机器人安全，不得对赛道、其他机器人和周边人员造成损害。为增加比赛趣味性和可完成性，规则允许在比赛过程中更换电池或以接力形式更换机器人完赛，但每次更换机器人将被罚时 10 分钟。

? https://mp.weixin.qq.com/s/EZuXOSmsLm20\_OxD6FgN2g

❓ Ilya 在做什么？没有人知道

离职仅一年，OpenAI 前首席科学家 Ilya Sutskever 所创立的 Safe Superintelligence(SSI)公司已跻身全球最具价值的科技企业之列。

据知情人士透露，SSI 正获得约 20 亿美元新一轮融资，估值达到 300 亿美元，估值增长了六倍，此轮融资由 Greenoaks Capital 领投。

与大多数 AI 初创公司不同，SSI 并不高调宣传。

公司网站仅有 223 字的使命声明，约 20 名员工被建议不要在 LinkedIn 上提及公司名称。来面试的候选人甚至需要将手机放入屏蔽无线信号的法拉第笼中，才能进入 SSI 办公室。

据 WSJ 报道，Ilya 向合作伙伴透露，他并未采用他在 OpenAI 时的研究方法，而是发现了一座「不同的山峰」，并已显示出早期成功迹象。

在去年底罕见的公开演讲中，Ilya 讨论了他正在努力开发的超级智能，指出这类系统可能是不可预测的、具有自我意识的，甚至可能要求自身权利。

他表示：「如果 AI 只是想与我们共存，这并不是一个坏结果。」

? https://www.wsj.com/tech/ai/ai-safe-superintelligence-startup-ilya-sutskever-openai-2335259b?mod=tech\_trendingnow\_article\_pos1

?️ Llama 4 将在几周内推出

据金融时报报道，Meta 公司计划在未来几周推出的最新开源大型语言模型 Llama 4 中引入改进的语音功能。

据知情人士透露，Meta 将注重打造更接近自然对话的用户体验，允许用户在交流过程中随时打断 AI 助手，而非遵循严格的问答模式。

商业方面，报道称 Meta 正考虑为其 AI 助手推出高级订阅服务，提供预订和视频制作等 Agent 功能。

公司还计划在 AI 助手的搜索结果中引入付费广告或赞助内容。另外，扎克伯格今年还宣布了打造具备中级工程师能力的 AI Agent，他认为这一领域拥有非常大的市场潜力。

Meta 首席产品官克里斯·考克斯近日在摩根士丹利会议上表示，Llama 4 将是一种「全能模式」，其中语音将成为「原生功能」，而非简单地将语音转文本再转回语音的过程。

他强调：「你可以与互联网对话，向它询问任何事情，这种能力的强大之处我们仍在不断探索。」

? https://www.ft.com/content/a1014427-c2ce-4204-b41a-001277309cea

Hunt for Tools｜先进工具

? 腾讯混元「图生视频模型」正式发布并开源

3 月 6 日，腾讯混元发布图生视频模型并对外开源，同时上线对口型与动作驱动等玩法，并支持生成背景音效及 2K 高质量视频。

官方介绍，基于图生视频的能力，用户只需上传一张图片并简短描述，混元即可按照用户要求让图片动起来，变成 5 秒的短视频，还能自动配上合适的背景音效。此外，上传一张人物图片，并输入希望「对口型」的文字或音频，图片中的人物即可「说话」或「唱歌」；如果选择动作模版，还能一键生成同款跳舞视频。

腾讯混元表示，此次开源的图生视频模型，是混元文生视频模型开源工作的延续，模型总参数量保持 130 亿，适用于多种类型的角色和场景。开源内容包含权重、推理代码和 LoRA 训练代码，支持开发者基于混元训练专属 LoRA 等衍生模型。

目前用户通过混元 AI 视频官网即可体验，企业和开发者可在腾讯云申请使用 API 接口使用；同时，混元视频生成开源模型目前在 Github、HuggingFace 等主流开发者社区均可下载体验。

? https://mp.weixin.qq.com/s/HnJuExUxqxJqDmm6LQkz4A

? 阿里发布 QwQ-32B

3 月 6 日凌晨，阿里巴巴发布并开源全新的推理模型通义千问 QwQ-32B。通过大规模强化学习，千问 QwQ-32B 在数学、代码及通用能力上实现质的飞跃，整体性能比肩 DeepSeek-R1。

官方介绍，千问 QwQ-32B 是阿里探索推理模型的最新成果。在冷启动基础上，阿里通义团队针对数学和编程任务、通用能力分别进行了两轮大规模强化学习，在 32B 的模型尺寸上获得了令人惊喜的推理能力提升，应证了大规模强化学习可显著提高模型性能。

在一系列权威基准测试中，千问 QwQ-32B 模型表现异常出色，几乎完全超越了 OpenAI-o1-mini，比肩最强开源推理模型 DeepSeek-R1。其中，在测试数学能力的 AIME24 评测集上，以及评估代码能力的LiveCodeBench中，千问 QwQ-32B 表现与 DeepSeek-R1 相当，远胜于o1-mini及相同尺寸的R1蒸馏模型。

在保持强劲性能的同时，千问 QwQ-32B 还大幅降低了部署使用成本，在消费级显卡上也能实现本地部署。

目前，千问 QwQ-32B 已在魔搭社区、HuggingFace 及 GitHub 等平台基于宽松的 Apache2.0 协议开源，所有人都可免费下载模型进行本地部署，或者通过阿里云百炼平台直接调用模型 API 服务。同时，用户也将可通过通义 App 免费体验最新的千问 QwQ-32B 模型。

3 月 6 日，全球最大的 AI 开源社区 HuggingFace 更新了大模型榜单，QwQ-32B 成功登顶。据显示，QwQ-32B 居于榜单第一，超越微软的 Phi-4、DeepSeek-R1 等模型。

? https://qwenlm.github.io/blog/qwq-32b/

? 字节跳动发布国内首个 AI IDE

字节跳动最近正式上线了国内首个 AI 原生集成开发环境（AI IDE）— Trae 国内版，其配置 Doubao-1.5-pro 模型，并支持切换满血版 DeepSeek R1、V3 模型。

据官方介绍，Trae 定位「智能协作 AI IDE」，以「人机协同、互相增强」为核心理念，对代码补全、代码理解、Bug 修复、基于自然语言生成代码等开发过程全场景都有非常好的适应性。

其中，Trae 的全新 Builder 模式能充分利用 AI 的能力：只需要用简单的语言描述需求，Trae 就可以迅速搭建起项目框架，还能持续进行调优修改，产出可用代码。

在代码理解维度，Trae 能够对开发项目上下文的极致理解，深入剖析代码仓库，实时获取 IDE 中的各种环境上下文，为开发过程提供最为契合、准确的解决方法。Trae 的实时代码续写技术可基于开发项目整体上下文进行智能补全，提升编码效率。

此外，在 Trae 的交互体验方面，开发者可以便捷地将 AI 生成的代码一键应用到多个模块，还能根据实际需求随时灵活调整指令，并实时预览 AI 生成代码的前端效果。

目前，Trae 国内版已上线官网，并提供下载安装包，已支持 MacOS 和 Windows，Linux 版本已开启预约。

? https://mp.weixin.qq.com/s/I8GBoOkLk030Sa3pePYgSA

? Mistral AI 推出号称世界最强 OCR

「法国版 OpenAI」Mistral 本周推出了一款号称世界上最强的 OCR 模型的全新 API 服务，专为处理复杂 PDF 文档的开发者设计，能够将任何 PDF 文档转换为 Markdown 格式文本文件。

以干净格式存储和索引数据已成为企业构建 AI 工作流的关键环节，而与市场上大多数 OCR 服务不同，Mistral OCR 采用多模态技术，能够识别文本中的插图和照片，并在输出结果中保留这些图形元素的位置信息。

该公司声称，其 OCR 性能优于 Google、微软和 OpenAI 的同类服务，特别是在处理包含数学表达式、复杂排版和表格的文档时表现出色，同时对非英语文档的支持也更为友好。

更重要的是，该服务不仅输出纯文本，还会自动转换为 Markdown 格式。

这种格式化语法允许开发者添加链接、标题等富文本元素。Markdown 已成为大语言模型训练数据集的重要组成部分，同时也是 AI 助手生成结构化内容的常用格式。

Mistral 已将这项技术应用于其 AI 助手 Le Chat，当用户上传 PDF 文件时，系统会在后台使用 Mistral OCR 理解文档内容。附上 Le Chat 体验地址：

https://chat.mistral.ai/chat

? https://mistral.ai/news/mistral-ocr

? macOS 版 ChatGPT 升级，开发者可在 IDE 中编写代码

ChatGPT 本周增添了直接编辑代码的新功能。

具体来说，最新版 macOS ChatGPT 应用已支持在 Xcode 和 VS Code 等主流开发工具中直接编辑代码。用户还可以启用「自动应用」模式，让 ChatGPT 无需额外确认即可自动完成代码修改。

从本周四开始，ChatGPT Plus、Pro 和 Team 订阅用户可通过更新应用获取此功能，而企业版、教育版和免费版用户则需等到下周。

OpenAI 产品团队成员 Alexander Embiricos 在社交媒体上表示，Windows 版 ChatGPT 应用也将「很快」获得此功能。

随着直接编辑功能的加入，ChatGPT 现在能够与 Cursor 和 GitHub Copilot 等专业 AI 编码工具展开更直接的竞争。据报道，OpenAI 计划在未来几个月推出专门支持软件工程的产品。

? https://techcrunch.com/2025/03/06/chatgpt-on-macos-can-now-directly-edit-code/

Hunt for Fun | 先玩

?️ 一张照片，AI 就能知道你在哪里？

近日，Moonpig 公司的 AI 主管 Peter Gostev 最近发现，OpenAI 最新的 GPT-4.5 模型展示出超强的图像地理位置识别能力，即使是背景极其模糊、几乎看不清任何细节的照片，它也能准确识别出拍摄地点。

据 Gostev 表示，他进行了一系列测试，向 GPT-4.5 展示了多张具有挑战性的图片，包括偏僻街道、海岸线、咖啡馆和庭院的照片。

而 GPT-4.5 几乎每次都能准确猜出确切位置。唯一的例外是一张缺乏细节的随机小街道照片，即便如此，它仍然正确识别出了国家。为排除元数据泄露的可能性，Gostev 特意使用了图片的屏幕截图进行测试，结果依然惊人。

他指出，虽然 Claude 3.7 在这项任务上表现最接近 GPT-4.5，但准确度和自信度仍有差距，而其他语言模型要么完全错误，要么给出过于模糊的回答，如「地中海某处」。

这一发现在 LinkedIn 上引发热议。有用户猜测模型可能在读取 EXIF 数据，但 Gostev 确认已排除这种可能性。另有网友认为，尽管这种经过充分训练的系统是基于对全球图像和元数据的大量接触做出的「有根据的猜测」，但仍然是基于概率的，并非总是 100% 准确。

现在，GPT-4.5 已经向所有 Plus 用户开放，感兴趣的朋友不妨去测试一下。

? https://www.linkedin.com/posts/peter-gostev_one-shockingly-impressive-capability-of-gpt-activity-7301990052614574080-PeBv/

? 让 AI「推箱子」，效果会怎样？

近日，Hao AI 实验室做了一个有趣的测试，通过让多款顶级 AI 模型挑战 1989 年经典游戏「推箱子」(Sokoban)，测试它们的空间推理和决策能力。

结果惨不忍睹，o3-mini 仅能达到第 4 关，且在处理两个相互纠缠的箱子时就遇到了瓶颈。Claude-3.7-thinking 和 Deepseek-R1 分别只解决了两关和一个关卡，而 Gemini-2.0-flash-thinking 则完全无法解决任何关卡。

研究人员指出，「推箱子」游戏虽然规则简单，但它要求玩家具备长期规划和强大的空间感知能力，这恰恰是当前 AI 模型的弱点。

为改善 AI 在此类任务中的表现，Hao AI 实验室开发了一个将游戏视觉状态转换为文本的模块，并通过重新设计关卡调整难度，同时尝试赋予 AI 代理自我一致性和记忆能力。

该研究还发现，非推理型 AI 模型在这类任务中表现更为糟糕，甚至连第一关都无法完成。

Hao AI 实验室强调，像「推箱子」这样的经典游戏应成为评估人工通用智能(AGI)的重要工具，为 AI 研究提供可重复使用的测试基准。

? https://x.com/haoailab/status/1897792946646421514

?️ 硅碳生命交流群

大家是否想过，把几个知名的 AI 拉进一个群聊，会是怎么样的局面？

现在，这个想法得到了实现。

近日，基于 React和 Cloudflare Pages 的多人 AI 聊天项目 Botgroup.chat 上线。在聊天窗口中，用户可以与多个 AI 角色同时参与对话，Botgroup 将提供类似群聊的交互体验。

同时 Botgroup 还支持自定义 AI 角色和个性、AI 角色禁言功能等特点。

目前，Botgroup.chat 已上线 GitHub，并且也有线上体验链接。? https://botgroup.chat/

Hunt for Insight｜先知

? 冯远征回应「用 DeepSeek 写剧本」：缺乏人的温度

据中国日报报道，知名演员冯远征近日在采访中分享了他使用 DeepSeek 生成剧本的经历。

他表示，自己曾尝试利用 DeepSeek 将小说提炼成话剧剧本的提纲，结果令他印象深刻——不到一分钟，AI 就完成了这项任务，且提炼效果出人意料地好。

随后，他继续使用 DeepSeek 生成剧本，

他表示，从技术角度看，AI 生成的剧本质量确实很高，语言严谨规范，结构完整，但「它可能缺少了一个温度，就是真正人的温度。」

冯远征认为，科技是无限的，但有限之处在于如何让人去真正利用它，而不是它来左右人。

? Hugging Face 首席科学官：我们需要敢质疑的 AI

Hugging Face 联合创始人兼首席科学官 Thomas Wolf 最近发文称，如果人工智能研究没有实质性突破，AI 可能仅会成为「服务器上的唯唯诺诺者」，而非真正的创新者。

Wolf 认为，当前的 AI 发展路径难以产生能够进行创造性思考和突破性解决方案的系统。

他指出，现有的 AI 模型更像是「非常听话的学生」，擅长填补已知知识之间的空白，但缺乏质疑现有认知框架和提出全新问题的能力。

「人们通常犯的主要错误是认为牛顿或爱因斯坦等人只是优秀学生的放大版。」

沃尔夫在文章中写道，「要在数据中心创造爱因斯坦，我们不仅需要一个知道所有答案的系统，而且还需要一个能够提出别人从未想过或不敢问的问题的系统。」

沃尔夫将这一问题部分归因于 AI 领域的「评估危机」。

他指出，目前用于衡量 AI 系统进步的基准测试大多集中在有明确、封闭式答案的问题上，这限制了系统发展出质疑和创新能力的可能性。

作为解决方案，他建议行业应当发展新的评估标准，能够测量 AI 是否能采取「大胆的反事实方法」，并基于微小线索提出一般性建议。

「科学最重要的方面是提出正确问题和质疑自己所学知识的能力，我们不需要一个能用常识回答所有问题的 A+ 学生，而是需要一个能看到并质疑其他人所错过的东西的 B 级学生。」

? https://techcrunch.com/2025/03/06/hugging-faces-chief-science-officer-worries-ai-is-becoming-yes-men-on-servers/

? 模型即产品？

近日，科技博主 Alexander Doria 发表了一篇题为《模型即产品》的文章，指出 AI 领域的下一个发展周期将是「模型本身即产品」。

多项关键因素正在推动这一转变：

首先，通用模型 Scaling 已遇到瓶颈，OpenAI 在发布 GPT-4.5 时透露，模型能力呈线性增长，但算力成本却呈指数级攀升；其次，特定任务的强化训练效果远超预期，模型开始真正「学习任务」，呈现出既非传统机器学习，也非基础模型的全新特性；再者，推理成本大幅下降，使得单纯销售模型调用次数的商业模式难以为继。

以 DeepResearch 和 Claude Sonnet 3.7 作为「模型即产品」的典型案例，前者并非简单在 GPT 基础上增加外部搜索功能，而是训练了一个全新模型，能够完全在内部完成搜索任务。

同样，Anthropic 也明确表示，真正的智能体必须能自主决定任务实现过程和工具使用方式。

这种趋势表明，各大 AI 实验室正逐步停止开放 API，转向自己训练并直接提供完整模型服务。文章引用 Databricks 投资人 Naveen Rao 的预测，未来 2-3 年内，所有闭源 AI 提供商将停止提供 API 服务，只有开源模型才会继续提供 API 接口。

AI 行业正面临重大转型，模型本身已成为产品，未来主导权将掌握在那些专注于模型训练的公司手中。

? https://vintagedata.org/blog/posts/model-is-the-product

? 图灵奖得主：科学里没有权威

Richard Sutton 在荣获计算机科学最高荣誉——图灵奖后，接受了一场独家采访。

他表示，当初收到获奖通知时完全出乎意料，甚至因忘记会议时间而迟到，直到看到一群他略感面熟的前图灵奖得主才意识到发生了什么。

在访谈中，Sutton 强调了强化学习的核心理念——从经验中学习。

他指出这与大语言模型等其他人工智能技术有着本质区别，大语言模型主要是从人类那里学习并模仿人类行为，而强化学习是从直接经验中学习，这是最自然的学习方式。

Sutton 还特别提到，这一理念可以追溯到人工智能之父艾伦·图灵。

早在 1947 年，图灵在伦敦数学学会的演讲中就明确表示「我们想要的是一台能从经验中学习的机器。」不仅如此，图灵还提出了奖励和惩罚的概念，这正是现代强化学习的基础。

面对近年来强化学习技术在 AlphaGo 和最近 DeepSeek 等项目中的重大突破，Sutton 保持着冷静的态度。他认为 AI 的发展是一场马拉松而非短跑，尽管取得了巨大进步，「AI 最具影响力的部分还没到来。」

对于年轻研究者，这位图灵奖得主建议要志向远大，但别骄傲自满。他特别强调了「科学里没有权威」的理念，鼓励研究者保持质疑精神，不论对方拥有什么头衔或荣誉。

Sutton 也分享了自己的一个重要理念：「每个人能做的最重要贡献，往往是那些对自己来说显而易见的东西。」这也许正是这位强化学习先驱最终获得计算机科学最高荣誉的秘诀。

? https://www.youtube.com/watch?v=9\_PepvnqIfU&t=29s&ab\_channel=Amii

彩蛋时间

作者：@yu285338525

工具：Midjourney

Prompt：In the city, a white long-haired Angora cat standing on a rooftop, looking down at the bustling street below. Realistic style, taken with an old-fashioned camera

链接：https://www.midjourney.com/jobs/8b97d932-099a-4902-a088-a28c3dfc0fcb?index=0

我们正在招募伙伴

? 简历投递邮箱
hr@ifanr.com

✉️ 邮件标题
「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里?

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签