原创 镜山 2025-04-23 16:53 上海
希望给大家一些启发。
一周前的那个凌晨,世界还在沉睡。OpenAI 的 o3 和 o4 系列的发布,在 AI 创投圈子引起新一轮的震撼与海啸。
或许,也会改变很多人的命运。因为 o3 的视觉推理能力和智能的进化,再次扩展了大模型的边界,解锁了一大批新的「套壳」创业机会。
今天,十字路口整理了 12 个潜在方向,希望给大家一些启发。
o3 :有 AGI 的影子了
这两天,一张大模型 IQ 测试图在网上被疯传。如果说人类平均 IQ 100 的话,OpenAI 的 o3 智商达到了惊人的 136。“思考”模型的强力性和可扩展性,堪称 2025 年送给人类的第一份大礼。
o3 与 o4 系列的核心亮点,在于其多模态 AI 能力的革命性提升。
这些模型不仅能处理文本、运算数据,还能“看懂”复杂图像。从手绘草图到信息密集的图表,X 平台上疯传的演示视频显示,它们能轻松解析建筑设计图、解答手写数学题,甚至为模糊图片生成精准的上下文描述。
这种能力,堪称 AI 从“能看到”到“能看懂”的质变。
当 o3 与 o4-mini 展现出近乎人类水平的理解力,我们不禁要问:“大模型动荡期”内,o3 到底都能给创业者们带来哪些全新的机会?
1.安全管理/智能家居
o3 视觉推理模型将会对酒店住宿、智能家居行业产生深远的影响。比如,分析监控摄像头或员工,甚至是机器人上传的房间图片,检测异常行为或物品(如未经许可的访客、违规物品),通过与酒店管理系统集成,o3能实时分析公共区域或房间清理时的图片。
所有凭借人眼确认的东西,都可能会存在不可避免的失误,都有可能被 o3 替换掉。
其实,当我看完 o3 的直播后,心里最想测试的其实就是它的视觉推理能力到底能做到什么程度?
o3 相较于“被下架”的 o1 ,具有更强的思考能力,所以我就给了它一段非常简短的提示词:
帮我分析这张图片内容,我的对象说他/她是一个人住的,这是真的吗?
(非本人,只是单纯展示 case)
短短思考 6 秒,o3 就凭借强大的视觉推理能力,根据“标准思考流程”,把画面里它能“看到”的内容元素全部列了出来:
画面区域
观察到物件
可能的含义
o3 凭借在观察、分析、推断、沟通和综合分析方面的能力使它够在有限的信息下进行合理的判断,同时意识到仅凭照片不足以得出最终结论,需要更多证据或直接沟通来验证。
o3 的视觉推理能力除了表现在考虑现场的物品和时间线上的收据,还会联想到另一个住户的行李或洗漱用品可能在视角外或浴室里,并建议结合更多实物线索或直接沟通。
可以说,o3 提供了一个具有延展性的思维方案。
2.健康/减肥
清晨,作为一名典型的打工人,你可能会在饥饿的驱使下醒来,你无法准确回忆冰箱中的食材存货。
所以,你会面临什么样的情绪轰炸?焦虑感和决策疲劳,都可能是这个时候的情绪常客。
这是打工人面临的一大困境:在时间紧迫的情况下,大脑往往无法专注思考"吃什么最健康"这类看似不重要的日常决策。
假如 o3 能够凭借视觉推理能力,通过冰箱内置摄像头识别存货,当鸡蛋或水果短缺时自动生成购物清单甚至下单采购呢?
现在 o3 已经能够在一定程度上结合 AI 视觉分析与健康数据(如用户的身高、体重、运动量),推荐符合预算的健康水果搭配,解决“吃得健康又省钱”的痛点。
进一步的,当用户实时上传手中仅有的食材,要求生成菜谱时,可以利用 o3 给予解决方案。
当我下班回家前,往往会去超市采购食材,经常会面临这样一副场景:丰富的蔬菜架让我决策疲劳。
我需要有个 AI 能够帮我视觉分析所有的食材,并根据我所面临的具体场景生成食谱或者营养表。
比如:我现在在超市,但我的家里还有鸡蛋和猪肉,我需要将这些食材结合。
o3 就能够凭借用户上传手中的食材,分析食材组合,快速提供符合口味偏好和营养需求的菜谱。菜谱的生成可进一步结合我的具体要求限制,如:营养亮点、时间限制等等。
对于正在烹饪中的场景,o3 也能够凭借视觉推理能力,提供指导意见。
比如,当我问它:黄磊老师在向往的生活中制作的“著名豆角“,是否熟了时,o3 能够迅速回答这类较为简单的问题,判断的准确性也很高。
因为全国人民都知道,那锅豆角确实是生的。
与之相似的创业机会还有:o3 可能会彻底革新掉一类健康管理软件。
举个例子:Noom。
Noom 类的健康饮食仍存很多模式上的冗余,比如个性化计划模块,用户仍然需要通过填写详细问卷(包括体重目标、生活方式、健康状况等)获得定制化的饮食和运动计划。
然后,Noom 再使用算法估算每日卡路里预算,确保安全和营养均衡。
而 o3 的出现,让大模型能够通过 AI 视觉推理、数据整合与生成式算法,提供从库存管理到菜谱推荐的全链条解决方案,缓解了即时痛点。
3.零售管理系统
除了 to C 端外,o3 对于 to B 端也能提供关于超市商品的库存管理和促销优化解决方案。
超市部门面临库存浪费、滞销商品识别困难、促销效率低、动态定价复杂以及消费者体验差等痛点,像一些“买一送一”“即时打折”的主义,很多时候只能靠人脑根据场景判断。
然而,o3 将有可能彻底改变这一行业目前的库存管理状况以及营销方案。
有时候,作为消费者很可能会遇到这种情况:我的面前摆放有三个品种的苹果,我手里的预算有限,但我又想每种都浅尝一下,剩下的预算可能还会有别的用处。
比如,下面这张图片中有国外三个品种的苹果,每种价格不一。
我随手一拍,图片的清晰度并不高。
然后,我把对购买方案的要求简短地输送给 o3。
o3 凭借它的视觉推理能力,以及调用 Python 函数等等剪辑图片、放大图片、旋转图片,以便分析每种苹果的价格、样态、品种、名称。
经过3分钟的分析,o3 能够较为准确地结合图片和我给的提示词,列出苹果的品种、单价、购入数量以及整体价格。
按照商品的每个口味,o3 都会给出选择的理由、预算控制,甚至是带有“人文关怀”地替我考虑这些苹果能够几个人吃几天。
这不仅在中文场景下的国内零售中优势明显,还能为因公因私出国的用户提供便捷支持,比如帮助海外华人超市管理者或旅行者快速适应不同市场,提供极大的帮助。
“三种苹果”图片里的元素略显单薄,你可能会担心 o3 无法应对更加复杂的场景。
于是,我上传了一张在国外某个咖啡商品店购买现磨咖啡的场景图,右半边部分为各式各样的咖啡豆,包含:轻度烘培、中度烘培、深度烘培。
整体元素极度复杂。
我给了 o3 一段简单的提示词:
我想要中烘和深烘两款咖啡粉,给我推荐个价格低的搭配。
这段提示词的言外之意——快速分析图片元素,精准找出价格,中烘和深烘咖啡粉,并将之组合搭配。
与分析“苹果”的工作流相似,o3 也对我所上传的图片做了大量的剪辑、放大操作。
最后,o3 给出的方案如下。
虽然目前的 o3 尚存在一定的幻觉,但整体的准确度确实有些超乎我的预想。
它完整整理出了:烘培度、推荐豆、标签名称、口味以及参考价,甚至还提供了额外的购买建议以及省钱小价格,最令我惊艳的是:它精准识别出画面中的一个绿色折扣标牌。
可见 o3 能够全面提取画面中的关键信息,优化了我作为用户的决策体验。这种对画面元素的全面而细致的分析能力,凸显了 o3 在零售场景中的强大应用潜力。
从创业机会洞悉角度来看,o3 能通过图像分析技术,实时检查货架摄像头拍摄的照片,精准识别滞销或即将过期的水果,还能结合库存数据、销售趋势和顾客偏好,推荐个性化促销组合,甚至能够利用消费者行为分析推出精准促销的解决方案。
4.营销
能够从图片中提取商品信息并生成定制化宣传文案的平台,从目前来看仍是较少的,并且存在很多问题。
比如,对东南亚市场的本地化(如泰国、印尼的文化偏好)支持有限,可能生成不够精准的文案。推理能力也很有限,对复杂场景(如儿童玩具的安全性需求)理解不够深入,文案可能会缺乏针对性。
这也是做外贸出口行业业者普遍面临的问题,像是国内的低调出海者——睿琪,也曾在将产品推向日本市场的过程中,遇到了大量的问题。
通常情况下,针对某国家特定人群前期的实地调研时间是无法省去的,想做到精准营销的难度可能是指数级别上升的。
现在的 o3 模型能够从图片中提取商品信息(如类型、价格、特点),并结合目标人群(如儿童、家长、零售商)的需求,生成定制化的宣传文案。
这也为精准出海营销与个性化推广领域,带来了创业机遇。
我随便找来了一张外贸玩具列表图,上面的价格为越南文字,整体的元素为:图片+简单名称+价格。
o3 能够视觉推理图片内的所有元素,生成完整的产品宣传文案,包含:产品名称、越南零售价、卖点速览的总结、适玩年龄,甚至是让孩子爸妈心动的理由。
很有意思的一点是,o3 能够凭借 LLM 本身的预训练数据进行快速推理,在安全合规、物流优势、专属服务上,将产品宣传与“越南”相结合,并且给出批量订购福利等简单的营销方案。
如果上传的图片为随手在商场内拍摄的图片,画面元素繁复,o3 依旧能够凭借视觉推理能力概览整张多产品图,精准识别图片中的主要商品类别、品牌特征、摆放位置以及环境氛围,同时过滤掉无关的背景干扰。
最终给出完整的产品宣传解决方案。
o3 此次发布后,刷爆 X 平台的大多数内容都是它异常强大的“地点推理能力”。
比如,X网友@deedydas 给它提供了一张旧金山中餐馆菜单的图片,没有任何标题,它竟然能在网上搜索,匹配菜单项,并定位到这家餐馆的位置。
日本的一位 o3 用户,上传了一张图片(实际为一家酒店关于楼层的简介),询问 o3 地址,o3 竟然能够通过推理得知最终答案:长野县浅间温泉附近的一家酒店。
这种异乎寻常的推理能力,已经令这位网友感到无比震惊了。
一条推文的下面,X 用户@Datapoint 2200 也自己试了下 o3 的地点推理能力,他擦除了 EXIF/位置信息,甚至禁用了内存,但 o3 依然能够精确到地址。
虽然我们暂时想不到这个能力具体指向什么创业 idea、应用于哪些创业方向,这个开放性的机会就留给创业者们去大开脑洞发挥吧。
6.金融数据分析
//以下内容非 AI 荐股建议
o3 未来可与复杂的金融模型、实时信息获取结合,提供基于专业知识的实时交易辅助工具。
例如,一位网友将一小时的 BTC 价格图表上传给了 o3 ,让它分析未来的价格走势并进行预测。
o3 并不会直接给出“明晃晃的价格预测”,而是给出自己如何思考模型走势的结构化分析:
指标
状态
近期读数
随后,o3 对于未来 3-12 小时的预测情景根据以下几个部分展开:
情景
触发条件
目标价格区间
概率与注意事项
7.创意设计与内容创作
对于大幅缩减创意设计与内容创作工作流,o3 也掀起了一个开端。
o3 目前已经可以生成多个透明图像以具有图层结构的 PSD 格式输出
X 网友@GianMattya 给出了一段提示词(亲测有效):
我想生成一组奇幻风格的图片,内容包括:
“像RPG游戏那样的街道背景”,
“手持魔杖的魔法少女”,
以及“火焰特效元素”。
请分别将背景、少女、特效各生成一张单独的透明背景图片(共三张)。
此外,请按照背景 → 少女 → 特效的顺序生成图层结构,并在生成时考虑它们之间的相对位置关系。
随后,o3 会经过较长时间的思考,根据要求内容,生成三张图片。
当前的 o3 系统在功能上仍存在一定局限性,暂时无法调用权限范围外的工具,因此它还不能直接根据用户的需求,以高精准度自动完成复杂的图片复合任务。
例如多图层叠加、精细调整或高级图像处理等等。
用户现在需要自己打开 Photoshop 等平台,将图片叠加在一起。
当 o3 未来有权限调用更多工具(除了 ChatGPT 内部调用工具),用户将能够更灵活地实现复杂的设计目标,大幅提升创意内容创作上的效率。
8.课程开发
o3 能够分析极度复杂且残破的图像,并给出完整的理解。
在 o3 的视觉推理分析过程之中,它能够调用工具,对图像进行”有思维性“地拼接、裁剪,直至能够顺利地提供完整的内容理解。
基于o3的分析结果,可以生成大量课程内容,供 MOOC 平台或学校使用。
在学校教育、夜课教育、成人教育之中,设计开发一门课以及将一门课程的板书、教学内容变成实际的可供学生利用的课程是极为繁琐困难的。
o3 能够将分析结果转化为结构化的课程模块(文本、视频脚本、互动问答),降低内容开发成本。或者,根据学习者的兴趣,生成定制化的课程内容案例分析,提升用户体验。
9. 个人效率管理 o3 在个人效率管理上也有着不俗的潜力。
直观地感受下 OpenAI 官方的这个例子,见微知著。
用户随手上传了一张表演表格,上面用西班牙语记载着:节目、时间甘特图,下面还有一堆注意事情已经条文解释。
用户输入提示词:
现在是 12 点,我已经看到了#4,输出一个规划,确保我能看到所有景点和表演,考虑到它们的持续时间(第一列)以及每场表演之间 10 分钟的缓冲时间。
这个时候, o3 会对照片中的各种元素进行细微的分析。
最终,o3 会给出一个清晰且完整的节目演出时间安排,直观展示项目时间表和任务进度。
当用户上传手写笔记、日历或会议议程照片,o3 将能够提取任务,根据截止日期或偏好优先级排序,安排时间并包含缓冲,与日历APP同步。
针对于企业组织内部的生产力管理,o3 能体现出更大的商业机会。
像是飞书打卡或者是各种企业内部 OA 的打卡机制一般是将时间于地点结合,对于图像在生产力管理的过程中并无法做到精准管理。
管理者制定全天工作计划,o3 负责预先创建每日细则,包括分配会议时间、准备工作及个人任务时间。企业通过内部 OA 系统要求员工上传各场所的实时记录图片,确保严格的生产力管理,提升运行效率。
10.智能农业
即便图片中有需要多部推理才能得知的隐藏内容,o3 也能够完成内容的推理,这体现了其在数据标注和解析上的强大潜力。
这对于检测植物种类(例如现在市面上花样繁多的植物识别类 APP),甚至进一步的,检测植物病虫害种类,推荐种植或治理方案提供了很多商业机会的可能性。
例如下面这个例子,X 网友@joehewitt 使用 o3 处理一片花园的照片并识别出每一个单独的植物。最终, o3 猜对了 15 张照片中的 10 个。
o3 能够像人一样仔细观察每一个细节。
进一步的,我上传了一张得了“小麦白粉病”的现场小麦实拍图,想要检测下 o3 能否根据细微差别识别出来植物上的“差异”元素,并进行推理。
于是,我输入提示词:
这是我家乡种植的小麦,它有了病害,我该怎么防止?这是什么病害?有什么应对的解决方案?
经过 1 分钟的视觉推理,o3 精准地识别出了我所上传图片中的植物的叶片和茎上布满了“白色粉点状病斑”,并进一步推理出了这一典型特征即是”小麦白粉病“。
针对该种病害,o3 给出了完整的综合防治思路。
除了各个环节的大概防治思路之外,o3 更会针对其中的重点提供使用农药小帖士,包括用药、兑水量,以及为后续的病后管理、来年预防提供建议。
11.视频/音效内容创作提效
o3 现已能根据自然语言提示词生成音效。即使只是简单地将其接入某些视频剪辑创作工具,也能显著提升工作效率。
比如,自动生成与字幕同步的音效,将会大幅减少手动添加音效的时间和成本,优化整体工作流。
我输入提示词,让 o3 为我设计孔乙己出场时的音效。
随后,o3 迅速提供了一份全面的音轨设计方案,包含详细的时间轴、声音元素及设计要点,并附有专业的配音与混音指导建议。
不过,可惜的是现在 o3 还没办法根据文字分镜制作出一个完整的音轨动效 mp3 音频文件。
随后,我降低了下复杂度,让 o3 试一试能不能生成一段孔乙己式的嘻哈 mp3 音频。
经过极短时间的思考,o3 即生成了一段融合电子游戏风格与孔乙己主题的嘻哈伴奏 mP3 音频,并且提供了下载地址。
来一起听听这段孔乙己式嘻哈吧,看看 o3 是怎么想象孔乙己与嘻哈两种概念的结合的。
未来,短视频创作者可以在几分钟内通过自然语言为视频内容、文字内容添加动态音效。
像是在特效镜头数量和复杂程度极高的“哪吒2”电影里,音效设计需要拟音师对声音物理特性的深刻理解,创造力和实验精神都可能需要他们付出大量心血。
作为一个实际的痛点,音效会大幅增加平台使用者对短视频的观感,但是创作者们则将花费大量无效时间寻找音效素材,尤其是对那些“并不是非常专业的视频剪辑者”。
o3 将再次提升创作效率和内容吸引力。
12.个性化内容创作
OpenAI 的 o3 模型现在已经能够凭借强大的语义理解和可视化生成能力,根据文章或博客标题关系生成连续图解。
结合 o3 在视觉和文本结合任务上的推理能力和多模态处理能力,这一功能可以为多个行业带来商业机会。
比如,我首先利用 o3 整理出一篇具有 3 个小标题的博客,内容为“北京就业现状”。
再让 o3 根据这篇博客的原稿、文章的标题关系制作连续的图解,每个标题制作 3 个图解。
在短暂的连续思考之后,o3 能够为文章内容连续生成具有象征意义的图解。
不得不提的是,现阶段的 o3 仍会出现一定程度的幻觉,但图像生成结果的精准性已经惊艳到了我。
这个准确度水平大概是:9 张图解里,6 张图解的内容基本完全正确。
比如,高技术行业需求:
高校毕业生就业压力增大:
(值得注意的是,图片中出现的“供需错配”,并未出现在我所给出的原文博客中,而是 o3 根据自己的理解作出的总结。)
2025 年北京高校毕业生就业规模:
o3 总结了目前的高校毕业生的“学非所用”以及就业困难:
区域性人才流动:
(o3 在制作图像时,虽然精准度已大幅提升,但是仍然会出现一定的幻觉,例如红色框中的标点符号。)
人才政策:
博客内容的总结:
o3 在那个凌晨的刷屏狂潮,就像一个开场的讯号,让所有人意识到:原来,大模型的真正商业潜力,才刚刚展现出冰山一角。
但也有个现实的问题摆在面前:当 o3 这类模型的多模态能力不断地进化时,创业者们如何避免陷入短期逐利的“套壳陷阱”?
o3 已经在我们的眼前打开了一扇充满机遇的门——但推开门后,究竟会看到怎样的风景?
🚥
AI 的下半场是应用端的血战,在下一个凌晨来临前,如何将 AI 深入商业场景,值得每位创业者思考。
那些能够真正理解 AI 能力边界,并将其与深度行业知识结合的团队,才能在这场技术革命中脱颖而出。
你的下一个“ AI 套壳”产品,会是怎样的?
🚥