原创镜山 2025-04-23 16:53 上海

希望给大家一些启发。

一周前的那个凌晨，世界还在沉睡。OpenAI 的 o3 和 o4 系列的发布，在 AI 创投圈子引起新一轮的震撼与海啸。

或许，也会改变很多人的命运。因为 o3 的视觉推理能力和智能的进化，再次扩展了大模型的边界，解锁了一大批新的「套壳」创业机会。

今天，十字路口整理了 12 个潜在方向，希望给大家一些启发。

o3 ：有 AGI 的影子了

这两天，一张大模型 IQ 测试图在网上被疯传。如果说人类平均 IQ 100 的话，OpenAI 的 o3 智商达到了惊人的 136。“思考”模型的强力性和可扩展性，堪称 2025 年送给人类的第一份大礼。

o3 与 o4 系列的核心亮点，在于其多模态 AI 能力的革命性提升。

这些模型不仅能处理文本、运算数据，还能“看懂”复杂图像。从手绘草图到信息密集的图表，X 平台上疯传的演示视频显示，它们能轻松解析建筑设计图、解答手写数学题，甚至为模糊图片生成精准的上下文描述。

这种能力，堪称 AI 从“能看到”到“能看懂”的质变。

当 o3 与 o4-mini 展现出近乎人类水平的理解力，我们不禁要问：“大模型动荡期”内，o3 到底都能给创业者们带来哪些全新的机会？

1.安全管理/智能家居

o3 视觉推理模型将会对酒店住宿、智能家居行业产生深远的影响。比如，分析监控摄像头或员工，甚至是机器人上传的房间图片，检测异常行为或物品（如未经许可的访客、违规物品），通过与酒店管理系统集成，o3能实时分析公共区域或房间清理时的图片。

所有凭借人眼确认的东西，都可能会存在不可避免的失误，都有可能被 o3 替换掉。

其实，当我看完 o3 的直播后，心里最想测试的其实就是它的视觉推理能力到底能做到什么程度？

o3 相较于“被下架”的 o1 ，具有更强的思考能力，所以我就给了它一段非常简短的提示词：

帮我分析这张图片内容，我的对象说他/她是一个人住的，这是真的吗？

（非本人，只是单纯展示 case）

短短思考 6 秒，o3 就凭借强大的视觉推理能力，根据“标准思考流程”，把画面里它能“看到”的内容元素全部列了出来：

画面区域

观察到物件

可能的含义

o3 凭借在观察、分析、推断、沟通和综合分析方面的能力使它够在有限的信息下进行合理的判断，同时意识到仅凭照片不足以得出最终结论，需要更多证据或直接沟通来验证。

o3 的视觉推理能力除了表现在考虑现场的物品和时间线上的收据，还会联想到另一个住户的行李或洗漱用品可能在视角外或浴室里，并建议结合更多实物线索或直接沟通。

可以说，o3 提供了一个具有延展性的思维方案。

2.健康/减肥

清晨，作为一名典型的打工人，你可能会在饥饿的驱使下醒来，你无法准确回忆冰箱中的食材存货。

所以，你会面临什么样的情绪轰炸？焦虑感和决策疲劳，都可能是这个时候的情绪常客。

这是打工人面临的一大困境：在时间紧迫的情况下，大脑往往无法专注思考"吃什么最健康"这类看似不重要的日常决策。

假如 o3 能够凭借视觉推理能力，通过冰箱内置摄像头识别存货，当鸡蛋或水果短缺时自动生成购物清单甚至下单采购呢？

现在 o3 已经能够在一定程度上结合 AI 视觉分析与健康数据（如用户的身高、体重、运动量），推荐符合预算的健康水果搭配，解决“吃得健康又省钱”的痛点。

进一步的，当用户实时上传手中仅有的食材，要求生成菜谱时，可以利用 o3 给予解决方案。

当我下班回家前，往往会去超市采购食材，经常会面临这样一副场景：丰富的蔬菜架让我决策疲劳。

我需要有个 AI 能够帮我视觉分析所有的食材，并根据我所面临的具体场景生成食谱或者营养表。

比如：我现在在超市，但我的家里还有鸡蛋和猪肉，我需要将这些食材结合。

o3 就能够凭借用户上传手中的食材，分析食材组合，快速提供符合口味偏好和营养需求的菜谱。菜谱的生成可进一步结合我的具体要求限制，如：营养亮点、时间限制等等。

对于正在烹饪中的场景，o3 也能够凭借视觉推理能力，提供指导意见。

比如，当我问它：黄磊老师在向往的生活中制作的“著名豆角“，是否熟了时，o3 能够迅速回答这类较为简单的问题，判断的准确性也很高。

因为全国人民都知道，那锅豆角确实是生的。

与之相似的创业机会还有：o3 可能会彻底革新掉一类健康管理软件。

举个例子：Noom。

Noom 类的健康饮食仍存很多模式上的冗余，比如个性化计划模块，用户仍然需要通过填写详细问卷（包括体重目标、生活方式、健康状况等）获得定制化的饮食和运动计划。

然后，Noom 再使用算法估算每日卡路里预算，确保安全和营养均衡。

而 o3 的出现，让大模型能够通过 AI 视觉推理、数据整合与生成式算法，提供从库存管理到菜谱推荐的全链条解决方案，缓解了即时痛点。

3.零售管理系统

除了 to C 端外，o3 对于 to B 端也能提供关于超市商品的库存管理和促销优化解决方案。

超市部门面临库存浪费、滞销商品识别困难、促销效率低、动态定价复杂以及消费者体验差等痛点，像一些“买一送一”“即时打折”的主义，很多时候只能靠人脑根据场景判断。

然而，o3 将有可能彻底改变这一行业目前的库存管理状况以及营销方案。

有时候，作为消费者很可能会遇到这种情况：我的面前摆放有三个品种的苹果，我手里的预算有限，但我又想每种都浅尝一下，剩下的预算可能还会有别的用处。

比如，下面这张图片中有国外三个品种的苹果，每种价格不一。

我随手一拍，图片的清晰度并不高。

然后，我把对购买方案的要求简短地输送给 o3。

o3 凭借它的视觉推理能力，以及调用 Python 函数等等剪辑图片、放大图片、旋转图片，以便分析每种苹果的价格、样态、品种、名称。

经过3分钟的分析，o3 能够较为准确地结合图片和我给的提示词，列出苹果的品种、单价、购入数量以及整体价格。

按照商品的每个口味，o3 都会给出选择的理由、预算控制，甚至是带有“人文关怀”地替我考虑这些苹果能够几个人吃几天。

这不仅在中文场景下的国内零售中优势明显，还能为因公因私出国的用户提供便捷支持，比如帮助海外华人超市管理者或旅行者快速适应不同市场，提供极大的帮助。

“三种苹果”图片里的元素略显单薄，你可能会担心 o3 无法应对更加复杂的场景。

于是，我上传了一张在国外某个咖啡商品店购买现磨咖啡的场景图，右半边部分为各式各样的咖啡豆，包含：轻度烘培、中度烘培、深度烘培。

整体元素极度复杂。

我给了 o3 一段简单的提示词：

我想要中烘和深烘两款咖啡粉，给我推荐个价格低的搭配。

这段提示词的言外之意——快速分析图片元素，精准找出价格，中烘和深烘咖啡粉，并将之组合搭配。

与分析“苹果”的工作流相似，o3 也对我所上传的图片做了大量的剪辑、放大操作。

最后，o3 给出的方案如下。

虽然目前的 o3 尚存在一定的幻觉，但整体的准确度确实有些超乎我的预想。

它完整整理出了：烘培度、推荐豆、标签名称、口味以及参考价，甚至还提供了额外的购买建议以及省钱小价格，最令我惊艳的是：它精准识别出画面中的一个绿色折扣标牌。

可见 o3 能够全面提取画面中的关键信息，优化了我作为用户的决策体验。这种对画面元素的全面而细致的分析能力，凸显了 o3 在零售场景中的强大应用潜力。

从创业机会洞悉角度来看，o3 能通过图像分析技术，实时检查货架摄像头拍摄的照片，精准识别滞销或即将过期的水果，还能结合库存数据、销售趋势和顾客偏好，推荐个性化促销组合，甚至能够利用消费者行为分析推出精准促销的解决方案。

4.营销

能够从图片中提取商品信息并生成定制化宣传文案的平台，从目前来看仍是较少的，并且存在很多问题。

比如，对东南亚市场的本地化（如泰国、印尼的文化偏好）支持有限，可能生成不够精准的文案。推理能力也很有限，对复杂场景（如儿童玩具的安全性需求）理解不够深入，文案可能会缺乏针对性。

这也是做外贸出口行业业者普遍面临的问题，像是国内的低调出海者——睿琪，也曾在将产品推向日本市场的过程中，遇到了大量的问题。

通常情况下，针对某国家特定人群前期的实地调研时间是无法省去的，想做到精准营销的难度可能是指数级别上升的。

现在的 o3 模型能够从图片中提取商品信息（如类型、价格、特点），并结合目标人群（如儿童、家长、零售商）的需求，生成定制化的宣传文案。

这也为精准出海营销与个性化推广领域，带来了创业机遇。

我随便找来了一张外贸玩具列表图，上面的价格为越南文字，整体的元素为：图片+简单名称+价格。

o3 能够视觉推理图片内的所有元素，生成完整的产品宣传文案，包含：产品名称、越南零售价、卖点速览的总结、适玩年龄，甚至是让孩子爸妈心动的理由。

很有意思的一点是，o3 能够凭借 LLM 本身的预训练数据进行快速推理，在安全合规、物流优势、专属服务上，将产品宣传与“越南”相结合，并且给出批量订购福利等简单的营销方案。

如果上传的图片为随手在商场内拍摄的图片，画面元素繁复，o3 依旧能够凭借视觉推理能力概览整张多产品图，精准识别图片中的主要商品类别、品牌特征、摆放位置以及环境氛围，同时过滤掉无关的背景干扰。

最终给出完整的产品宣传解决方案。

o3 此次发布后，刷爆 X 平台的大多数内容都是它异常强大的“地点推理能力”。

比如，X网友@deedydas 给它提供了一张旧金山中餐馆菜单的图片，没有任何标题，它竟然能在网上搜索，匹配菜单项，并定位到这家餐馆的位置。

日本的一位 o3 用户，上传了一张图片（实际为一家酒店关于楼层的简介），询问 o3 地址，o3 竟然能够通过推理得知最终答案：长野县浅间温泉附近的一家酒店。

这种异乎寻常的推理能力，已经令这位网友感到无比震惊了。

一条推文的下面，X 用户@Datapoint 2200 也自己试了下 o3 的地点推理能力，他擦除了 EXIF/位置信息，甚至禁用了内存，但 o3 依然能够精确到地址。

虽然我们暂时想不到这个能力具体指向什么创业 idea、应用于哪些创业方向，这个开放性的机会就留给创业者们去大开脑洞发挥吧。

6.金融数据分析

//以下内容非 AI 荐股建议

o3 未来可与复杂的金融模型、实时信息获取结合，提供基于专业知识的实时交易辅助工具。

例如，一位网友将一小时的 BTC 价格图表上传给了 o3 ，让它分析未来的价格走势并进行预测。

o3 并不会直接给出“明晃晃的价格预测”，而是给出自己如何思考模型走势的结构化分析：

指标

状态

近期读数

随后，o3 对于未来 3-12 小时的预测情景根据以下几个部分展开：

情景

触发条件

目标价格区间

概率与注意事项

7.创意设计与内容创作

对于大幅缩减创意设计与内容创作工作流，o3 也掀起了一个开端。

o3 目前已经可以生成多个透明图像以具有图层结构的 PSD 格式输出

X 网友@GianMattya 给出了一段提示词（亲测有效）：

我想生成一组奇幻风格的图片，内容包括：

“像RPG游戏那样的街道背景”，

“手持魔杖的魔法少女”，

以及“火焰特效元素”。

请分别将背景、少女、特效各生成一张单独的透明背景图片（共三张）。

此外，请按照背景 → 少女 → 特效的顺序生成图层结构，并在生成时考虑它们之间的相对位置关系。

随后，o3 会经过较长时间的思考，根据要求内容，生成三张图片。

当前的 o3 系统在功能上仍存在一定局限性，暂时无法调用权限范围外的工具，因此它还不能直接根据用户的需求，以高精准度自动完成复杂的图片复合任务。

例如多图层叠加、精细调整或高级图像处理等等。

用户现在需要自己打开 Photoshop 等平台，将图片叠加在一起。

当 o3 未来有权限调用更多工具（除了 ChatGPT 内部调用工具），用户将能够更灵活地实现复杂的设计目标，大幅提升创意内容创作上的效率。

8.课程开发

o3 能够分析极度复杂且残破的图像，并给出完整的理解。

在 o3 的视觉推理分析过程之中，它能够调用工具，对图像进行”有思维性“地拼接、裁剪，直至能够顺利地提供完整的内容理解。

基于o3的分析结果，可以生成大量课程内容，供 MOOC 平台或学校使用。

在学校教育、夜课教育、成人教育之中，设计开发一门课以及将一门课程的板书、教学内容变成实际的可供学生利用的课程是极为繁琐困难的。

o3 能够将分析结果转化为结构化的课程模块（文本、视频脚本、互动问答），降低内容开发成本。或者，根据学习者的兴趣，生成定制化的课程内容案例分析，提升用户体验。

9. 个人效率管理 o3 在个人效率管理上也有着不俗的潜力。

直观地感受下 OpenAI 官方的这个例子，见微知著。

用户随手上传了一张表演表格，上面用西班牙语记载着：节目、时间甘特图，下面还有一堆注意事情已经条文解释。

用户输入提示词：

现在是 12 点，我已经看到了#4，输出一个规划，确保我能看到所有景点和表演，考虑到它们的持续时间（第一列）以及每场表演之间 10 分钟的缓冲时间。

这个时候， o3 会对照片中的各种元素进行细微的分析。

最终，o3 会给出一个清晰且完整的节目演出时间安排，直观展示项目时间表和任务进度。

当用户上传手写笔记、日历或会议议程照片，o3 将能够提取任务，根据截止日期或偏好优先级排序，安排时间并包含缓冲，与日历APP同步。

针对于企业组织内部的生产力管理，o3 能体现出更大的商业机会。

像是飞书打卡或者是各种企业内部 OA 的打卡机制一般是将时间于地点结合，对于图像在生产力管理的过程中并无法做到精准管理。

管理者制定全天工作计划，o3 负责预先创建每日细则，包括分配会议时间、准备工作及个人任务时间。企业通过内部 OA 系统要求员工上传各场所的实时记录图片，确保严格的生产力管理，提升运行效率。

10.智能农业

即便图片中有需要多部推理才能得知的隐藏内容，o3 也能够完成内容的推理，这体现了其在数据标注和解析上的强大潜力。

这对于检测植物种类（例如现在市面上花样繁多的植物识别类 APP），甚至进一步的，检测植物病虫害种类，推荐种植或治理方案提供了很多商业机会的可能性。

例如下面这个例子，X 网友@joehewitt 使用 o3 处理一片花园的照片并识别出每一个单独的植物。最终， o3 猜对了 15 张照片中的 10 个。

o3 能够像人一样仔细观察每一个细节。

进一步的，我上传了一张得了“小麦白粉病”的现场小麦实拍图，想要检测下 o3 能否根据细微差别识别出来植物上的“差异”元素，并进行推理。

于是，我输入提示词：

这是我家乡种植的小麦，它有了病害，我该怎么防止？这是什么病害？有什么应对的解决方案？

经过 1 分钟的视觉推理，o3 精准地识别出了我所上传图片中的植物的叶片和茎上布满了“白色粉点状病斑”，并进一步推理出了这一典型特征即是”小麦白粉病“。

针对该种病害，o3 给出了完整的综合防治思路。

除了各个环节的大概防治思路之外，o3 更会针对其中的重点提供使用农药小帖士，包括用药、兑水量，以及为后续的病后管理、来年预防提供建议。

11.视频/音效内容创作提效

o3 现已能根据自然语言提示词生成音效。即使只是简单地将其接入某些视频剪辑创作工具，也能显著提升工作效率。

比如，自动生成与字幕同步的音效，将会大幅减少手动添加音效的时间和成本，优化整体工作流。

我输入提示词，让 o3 为我设计孔乙己出场时的音效。

随后，o3 迅速提供了一份全面的音轨设计方案，包含详细的时间轴、声音元素及设计要点，并附有专业的配音与混音指导建议。

不过，可惜的是现在 o3 还没办法根据文字分镜制作出一个完整的音轨动效 mp3 音频文件。

随后，我降低了下复杂度，让 o3 试一试能不能生成一段孔乙己式的嘻哈 mp3 音频。

经过极短时间的思考，o3 即生成了一段融合电子游戏风格与孔乙己主题的嘻哈伴奏 mP3 音频，并且提供了下载地址。

来一起听听这段孔乙己式嘻哈吧，看看 o3 是怎么想象孔乙己与嘻哈两种概念的结合的。

未来，短视频创作者可以在几分钟内通过自然语言为视频内容、文字内容添加动态音效。

像是在特效镜头数量和复杂程度极高的“哪吒2”电影里，音效设计需要拟音师对声音物理特性的深刻理解，创造力和实验精神都可能需要他们付出大量心血。

作为一个实际的痛点，音效会大幅增加平台使用者对短视频的观感，但是创作者们则将花费大量无效时间寻找音效素材，尤其是对那些“并不是非常专业的视频剪辑者”。

o3 将再次提升创作效率和内容吸引力。

12.个性化内容创作

OpenAI 的 o3 模型现在已经能够凭借强大的语义理解和可视化生成能力，根据文章或博客标题关系生成连续图解。

结合 o3 在视觉和文本结合任务上的推理能力和多模态处理能力，这一功能可以为多个行业带来商业机会。

比如，我首先利用 o3 整理出一篇具有 3 个小标题的博客，内容为“北京就业现状”。

再让 o3 根据这篇博客的原稿、文章的标题关系制作连续的图解，每个标题制作 3 个图解。

在短暂的连续思考之后，o3 能够为文章内容连续生成具有象征意义的图解。

不得不提的是，现阶段的 o3 仍会出现一定程度的幻觉，但图像生成结果的精准性已经惊艳到了我。

这个准确度水平大概是：9 张图解里，6 张图解的内容基本完全正确。

比如，高技术行业需求：

高校毕业生就业压力增大：

（值得注意的是，图片中出现的“供需错配”，并未出现在我所给出的原文博客中，而是 o3 根据自己的理解作出的总结。）

2025 年北京高校毕业生就业规模：

o3 总结了目前的高校毕业生的“学非所用”以及就业困难：

区域性人才流动：

（o3 在制作图像时，虽然精准度已大幅提升，但是仍然会出现一定的幻觉，例如红色框中的标点符号。）

人才政策：

博客内容的总结：

o3 在那个凌晨的刷屏狂潮，就像一个开场的讯号，让所有人意识到：原来，大模型的真正商业潜力，才刚刚展现出冰山一角。

但也有个现实的问题摆在面前：当 o3 这类模型的多模态能力不断地进化时，创业者们如何避免陷入短期逐利的“套壳陷阱”？

o3 已经在我们的眼前打开了一扇充满机遇的门——但推开门后，究竟会看到怎样的风景？

🚥

AI 的下半场是应用端的血战，在下一个凌晨来临前，如何将 AI 深入商业场景，值得每位创业者思考。

那些能够真正理解 AI 能力边界，并将其与深度行业知识结合的团队，才能在这场技术革命中脱颖而出。

你的下一个“ AI 套壳”产品，会是怎样的？

🚥

阅读原文

跳转微信打开