赛博禅心 01月27日
世界的物理接口
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了人工智能如何从虚拟走向实体,重塑与世界的关系。文章指出,结构化输出是AI走出屏幕的关键,通过多端协同和预测性输出,AI不仅能感知信息,还能调度软硬件,实现精准控制。文章还提出了AGI Bar的概念,作为探索AI在实体商业中应用的实验,旨在通过实践检验AI在商业运营中的潜力,并为未来的智能化发展提供参考。文章强调,AI的进化是一个循序渐进的过程,需要各界共同努力。

🧩 结构化输出是AI走出虚拟世界的核心。机器无法理解自然语言,只能通过结构化信息进行交互,这使得AI能够精准地控制和操作现实世界的设备和系统。

📡 多端协同是AI驱动实体经济的关键。AI不仅能处理文字、图像和声音等多模态信息,还能通过多重结构化输出,调度各种软硬件协同工作,实现更复杂的任务和操作,例如智慧城市和智能工厂的运作。

⚙️ 预测性输出是AI在工业领域应用的突破。与传统的生成式AI不同,预测性输出允许AI只修改需要调整的部分,保持其他部分不变,从而实现更精细化的控制和更高效的迭代,尤其适用于工业生产等需要稳定性的场景。

💡 AGI Bar是AI实体化的初步尝试。通过经营一家小型酒吧,AI能够分析顾客喜好、优化运营策略,并实时调整店内设备,以探索AI在实体商业中的应用潜力,并为未来的智能化发展提供参考。

原创 金色传说大聪明 2025-01-23 18:04 广东

智能与世界的关系,会被重塑

记录在「第一个 AI 经营的商业实体」落地之前

前置问题:何时我们会见到,第一个 AI 经营的商业实体?

答:今年,在中国

希望你可以仔细读完本篇,我会将这件事情说清楚。

来自:公众号「中关村创业大街」

PS:这篇写了一个多月,与上一篇《人类的认知协议》互为姊妹



从“符号”到“实体”

人类的文明,总在不经意间跃迁。  

而文明加速的时刻,往往都指向同一个奇点: 当人类控制的信息,开始交融世界之时: 

 

在我看来:文明的演进,就是不断的信息构建,然后用之驾驭现实。 

而现在,是新的一轮跃迁:AI 将走出虚拟屏幕,走进闹市街头,迸发真正的力量 

休闲游戏《文明六》宣传片

那么,AI 怎样才能走出屏幕呢?

可以从一个很熟的例子谈起:与 GPT 问答。


如果你问 GPT :「介绍一下乔布斯」,它通常会给你一段文字,就像这样: 

史蒂夫·乔布斯,1955年2月24日出生,2011年10月5日去世,美国人。他活跃于科技、创新、企业管理和动画领域。乔布斯创立了Apple、NeXT和Pixar公司,推出了Mac、iPod、iPhone等具有划时代意义的产品,重塑了个人电脑、音乐和手机行业,奠定了苹果在全球科技领域的领军地位。作为Pixar的创办人之一,他也在动画领域留下了深远的影响。乔布斯是20世纪末至21世纪初最具影响力的企业家和创新者之一。

 

没毛病,对吧?人类阅读起来完全没问题。 

但其实,GPT 还可以输出结构化的信息,像下面这种格式: 

{
"name""史蒂夫·乔布斯"
"birth_date""1955-02-24"
"death_date""2011-10-05"
"nationality""美国"
"fields": ["科技""创新""企业管理""动画"], 
"companies_founded": ["Apple""NeXT""Pixar"], 
"achievements": [   "创立苹果公司",   "推出Mac、iPod、iPhone等产品",   "重塑个人电脑、音乐、手机行业",   "奠定苹果全球科技领军地位",   "Pixar创办人之一" ], 
"influence""20世纪末至21世纪初最具影响力的企业家和创新者之一"
}

 

当然,很多人会觉得,文本信息挺好的啊,为啥还要搞这么复杂的结构化输出?对于给人看的信息,文字当然足够了。毕竟,我们从小到大看书、杂志、文章,都是文字。 

 

但细想一下,如果信息要走出屏幕,读者就是机器了。

一切都会不一样:机器可读不懂自然语言,它们只能理解结构化信息。 

所以,结构化输出,便是 AI 走出屏幕的核心抓手。 

二维码也是抓手,让信息走入手机

AI 搜索,想必大家都用过/听过:你问 AI 一个问题,AI 满世界给你找资料,然后告诉你回答。比如,你让它「介绍一下乔布斯」: 

用 perplexity 来回答这一问题

这里有个问题,AI 怎么知道搜啥呢?

流程中,它会先问一下大模型:“嘿,想回答‘介绍乔布斯’这个问题,我需要去哪里找资料?” 大模型在思考一会儿后,获得了一份结构化信息: { "query": "乔布斯", "search_engine": "Google" } 

有了这个指令,AI 就能调用 Google 的 API,把相关的网页内容抓取过来,最后整理总结成答案。 

过程像是在做菜:先按菜谱买菜,然后组合在一起

再举个例子:天气预报机器人。当你问它“北京明天会不会下雨?” 的时候,AI 实际上会先把你的问题,解析成一个结构化的数据请求,然后调用后台气象服务,得到一份 json 数据:包含温度、湿度、降雨概率等信息

最后,AI 再把这些结构化的数据,整合回自然语言,呈现给你: 

北京明天(1 月 21 日)的天气预计为多云,最低温度 - 3℃,最高温度 8℃,东北风 2 级,湿度 33。整体天气较为寒冷,需要注意防寒保暖。 

 

你看,对我们用户来说,好像只是「一句话」就完成了天气查询。但实际上,在系统内部,这背后至少经历了两次以上的「生成 — 调用 — 返回」的循环。所有关键信息,都是以结构化的方式传递的,而不是模糊地给一段包含数字的文本。 

用流程图画一下,大概是这样


再进一步,如果把这种能力扩展到物联网,大模型就能控制家里的各种设备了,比如:空调、音响、灯光等等。 

比如,你跟 AI 说:“把客厅灯光调暗到 30%”。AI 理解你的需求后,就会输出这样的结构化指令给中控系统: { "device": "living_room_light", "action": "dim", "value": 30 }。中控系统接收到指令,灯光就瞬间变暗了。就像我之前搞的这个“大爱同学”: 

 


 

「结构化输出」简史

说到这里,就不得不提 2023 年初那篇震撼人心的论文《Toolformer: Language Models Can Teach Themselves to Use Tools / AI 学会用工具了》。它的核心概念,就是让大语言模型学会使用外部工具。 

Toolformer: Language Models Can Teach Themselves to Use Tools


同时间的,OpenAI 发布了 Plugin 计划,邀请开发者提交插件配置,让 ChatGPT 可以发起 post 请求,调用外部工具。5 月份,Plugin 正式上线,首批就包含了大约 70 个工具。 

 

我当时有幸成为这 1/70,所以见过最初版本的文档。你需要写一个 yaml 文件,描述在什么情况下调用插件,以及发出什么样的请求。插件服务器收到请求后,会给出一个回调(后来这套东西变成了 GPTs 的 Actions)。 

GPT Actions 的相关文档

2023 年 6 月,OpenAI 又发布了 0613 年中更新,带来了 Function Calling 功能。这也是现在最主流的 AI 工具调用方法,国内的大模型基本都支持。23 年 11 月,OpenAI 开发者大会上,又更新了 json mode。最近一次大的更新,是 2024 年 8 月,有了新的调用方法,定名为 Structured Outputs,也就是我们说的「结构化输出」。 

 

在这个过程中,不只是名称和接口在变,更重要的是,结构化输出的准确率有了质的飞跃。23 年中的时候,用提示词来做,成功率只有可怜的 35.9%,得不停地重试。到了 23 年 4 月,成功率提升到 75.3%;5 月份是 86.4%。而 8 月 6 号 Structured Outputs 更新后,在严格模式下,GPT 甚至可以做到 100% 的输出准确率。 

 

正是这 100% 的准确率,让 AI 真正成功地接入了现实世界,开始操作现实世界,从「建议者」向「决策者」和「执行者」转变。与此同时,人类的角色也开始转变:从「执行者」变成了「监督者」。 一个永动的机器开始运转,将 AI 的判断精准地传递到现实的每个角落,而结构化输出,就是这个机器的传动轴 

 


多端到多端

2023 年 11 月 6 号,OpenAI 发布了 gpt-4-vision-preview,AI 终于能「看懂」图像和视频了!后来的 gpt-4o,更是支持原生的语音输入输出。自此,大模型正式进入了 「多模态」时代:它能理解你眼前的图片,听懂你说的话,甚至能感情丰沛地给你唱歌

 

就在我们惊叹大模型变得「能说会道」之时,另一场「水下革命」正悄然发生,唤做:「多端到多端」。如果你表示,没听说过这个名词:那正常 - 这个词是我创的。

可以先看这个视频:你对着太阳系星系图提问,AI 不仅能用声音跟你讨论,还能操作演示界面,放大对应的天体,并在屏幕上展示相关图表。 

来自 24 年的 OpenAI DevDay,对应产品未发布

过去,无论是多媒体还是 AI 对话,我们接收到的信息,基本都离不开文字、图像和声音这三种形式。 

而在这个演示里,AI 展现了一种全新的能力:在理解问题和回答问题的同时,还能调度各种外部设备,协同表达知识: 

{
  "comprehension": {
    "query_type""astronomical",
    "topic""solar_system",
    "depth""educational"
  },
  "system_control": {
    "display""zoom_into_target",
    "audio""narrative_with_effects",
    "data""comparison_charts"
  },
  "coordination": {
    "timing""synchronized",
    "transitions""smooth",
    "focus_flow""guided"
  }
}

 

在之前的「多模态大模型」阶段,AI 扮演的角色,更像是一个「Any to Any」的信息转换器:输入是图像、文字、声音,输出的也是文字、图像和声音。 

Any to Any:大概就像转接头

而在「多端到多端」模式下,AI 变成了一个复杂系统的「指挥中心」:它的输出,除了常规的图像、文字、声音,还会通过多重结构化输出,来调度各种软硬件协同。比如在智慧教室里,当 AI 检测到学生注意力不集中时,它不仅仅是发出一个提醒,而是同时调整多个系统:降低室温来提神、调整灯光亮度、切换教学内容、启动互动环节。

 

这种「多端到多端」变革,将重塑整个数字世界的架构传统的系统是线性的,信息从输入端流向输出端。新一代的系统是网状的,每个节点既可以是输入,也可以是输出,AI 在其中扮演着中枢调度的角色。 如果说多模态让 AI 有了感知能力,那么多端协同则赋予了它调度能力。 


可以畅想一下,未来的智慧城市、无人工厂、自动医院,都将基于这种范式:我们将会看到的,不会是简单的自动化,而是由 AI 实时感知、精准调度、智能编排的有机整体。这标志着人工智能从工具走向平台,从助手走向管理者,一个真正的「AI 驱动」时代即将到来。 


 

预测性输出

很多人会疑惑:为什么 AI 这么强了,但为啥还没落地到行业? 

确实,日常用 AI 写邮件、文章、代码片段,已经很方便了。顶天也就几千字,从头开始写也花不了多少时间。 

对大模型来说,生成 1000 字的内容,只需要 10 秒

但在工业领域,情况就复杂多了:工业生产线上,每个环节、每个控制系统,都积累了非常成熟的工艺文档、参数配置和安全策略。如果大刀阔斧地推倒重来,从零开始,显然不是最佳方案。在高度自动化的产线上,哪怕一个阀门开度只变动 5%,都可能引发上下游十几个环节的连锁反应。这就好比用推土机来修剪盆栽,虽然也能完成任务,但显然不够精细。 

 

如果还是用传统的「生成式」思路,每次更新都让 AI 重新写一份完整的工艺文档或流程脚本,很可能把已经稳定运行的部分也给改乱了。这样既浪费算力,也容易出错,还需要投入大量人力去复核。


在工业场景下,我们更需要一种 「修改式」迭代:AI 只关注需要调整的一小段代码或参数,其他部分保持不变,避免破坏现有的稳定流程。对工业生产来说,「少动多看」能更快恢复生产,把停机时间降到最低。这种策略,也特别符合柔性制造和精益运营的理念。 

水多了加面,是老祖宗的智慧

 

OpenAI 前段时间悄悄发布的「预测性输出」(Predictive Outputs),就是修改性的:《“鸽”声中,OpenAI 偷偷上线:预测性输出


预测性输出,不再是推倒重来的「生成」,而是修改式的「精准调整」:当系统需要微调时,AI 只关注必要的改动,保持其他部分的稳定性。这种方法,完美契合了工业现场稳中求进的核心诉求。 


这里举个例子,比如我希望用「预测性输出」的方式,对下面内容进行修改: 

近年来,变压器模型在深度学习领域取得了重大突破。  

变压器最初是为自然语言处理任务而设计的,但现在它已被广泛应用于计算机视觉和其他领域。  

大语言模型,也称为法学硕士,是基于变压器架构的。  

法学硕士可以生成高质量的文本,并用于各种应用,如机器翻译和文本摘要。我们的产品使用了最新的法学硕士技术。  

 

我希望让它: 

请将这段文本中的“变压器”改为“Transformer”,“法学硕士”改为“LLM”,并在所有中英文之间添加空格。 

 

就会很快的获得: 

近年来, Transformer 模型在深度学习领域取得了重大突破。  

Transformer 最初是为自然语言处理任务而设计的, 但现在它已被广泛应用于计算机视觉和其他领域。  

大语言模型, 也称为 LLM, 是基于 Transformer 架构的。  

LLM 可以生成高质量的文本, 并用于各种应用, 如机器翻译和文本摘要。我们的产品使用了最新的 LLM 技术。  

 

代码也很简洁: 

completion = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role""user""content": rewrite_prompt},
        {"role""user""content": original_text},
    ],
    prediction={"type""content""content": original_text}, 
)

 

通过上面的例子,我们可以看到「预测性输出」的明显优势: 

 

当然,这项技术的应用远不止于工业生产。 在电商领域,就可以用它来做更精细化的运营优化:当系统检测到某个商品页面的转化率下降时,AI 可以在毫秒级别内完成一系列精准调整——重新排序推荐商品、微调价格展示方式、优化按钮位置。 每一个微小变化,都基于实时数据分析,而且能根据用户反馈持续优化。这让 A/B 测试从「等待-分析-调整」的慢节奏,进化为实时响应的快速迭代。 

 

在机器控制领域,「预测性输出」也展现了大模型的另一种价值:持续的策略迭代 当机器狗在执行任务时,大模型不负责具体的路径规划,而是扮演一个高层次的决策者角色:通过分析任务状态(电量、负载、进度)和环境信息(温度、湿度、光照),不断调整和优化任务策略。比如,当检测到电量偏低时,它会权衡是继续任务还是提前充电;当发现某区域人流密集时,它会决定是否临时改变任务次序。 

持续自迭代的流水线,才是好流水线

我们都希望 AI 能做更有价值的事情,并且能更安全地落地应用。在工厂里,它是那个只调 0.5% 阀门的老师傅;在电商平台上,它是不断微调用户体验的设计师;在机器人策略中,它是随时迭代决策的指挥官。这种演进给我们上了宝贵的一课: 真正的智能不在于取代,而在于配合;不在于革命,而在于共生。也许未来的智能化图景,就是由无数个这样的「精准协作」编织而成。 



AGI Bar

最近我一直在思考,AI 的能力已经发展到一定程度,能否走出虚拟世界,真正在现实商业中创造价值?


前段时间,参加了 OpenAI 的发布会:《来自现场:OpenAI 把实时交互,卷到了新高度》。期间见了很多人,聊了很多事儿,进而,一个想法逐渐清晰:不如让 AI 尝试经营一家实体店,就从小型酒吧开始 - SKU 相对简单,也适合大家一起交流。 


AGI Bar 的构想由此而来,并非宏大的商业计划,而是一个探索 AI 在线下商业场景中潜力的「小实验」。 

在原「联想之星」的地方,来开这家酒吧

在白天,将作为一个「AI 门店」的小型展示空间:你可以近距离观察「AI + 线下商业」的可能性。店内会设置纪念品区,并利用大屏幕实时展示运营数据,例如库存变化、AI 进货决策、顾客喜好分析、促销效果等,尽可能透明地呈现 AI 运营的「幕后」逻辑。 

示意图:白天长这样

你也可以在这里直接体验到各家的最新产品与技术。在门口,或许还会设置科技感十足的、另类的自动售货机,甚至是有机器狗来提供外送服务。 我希望借由 AGI Bar 这个窗口,与大家一同探讨 AI 能为线下商业带来哪些新思路。 

 

到了夜晚,AGI Bar 将回归酒吧的本质,为顾客提供放松空间。此时,AI 需要扮演「酒吧主理人」的角色。尝试去分析顾客口味,把握上酒时机,并根据店内氛围调整灯光音乐,力求优化顾客体验。对于上面提到的机器狗送餐,AI 还需要监控配送状态,确保服务质量。 

示意图:晚上长这样

这是新的探索:构建一个 AI 经营的酒吧,来落地 「AI + 实体商业」。 例如,AI 分析数据预测客流高峰,便可提前调整灯光、音乐、促销活动,以契合高峰期的氛围和需求。这可以看作是将电商平台的「智能推荐」能力延伸至线下,尝试在现实世界中构建一个 「智能决策」的闭环。 

 

“如果 AI 真的能将一家小型酒吧经营得有声有色,甚至实现盈利,是否意味着这种模式具备一定的可复制性?” 这也是我思考 AGI Bar 的出发点之一。 希望 AGI Bar 可以是一个「小型实验基地」,来去做更多的具身智能相关的探索 很多想法仍需实践检验,例如机器狗送餐效率、数据展示对顾客体验的影响、库存与促销的协同策略等等。我预料 AI 在初期运营中可能会犯错,但希望通过不断「喂入」数据,让 AI 在实战中学习,在试错中进步,如同进行 A/B 测试,逐步优化运营策略。「线上 A/B 测试 + 线下实战验证」 的模式,或许能加速探索最佳运营方案。 

 

为了更好地支持 AI 运营,我计划尽可能将店内设备联网,接入统一的 AI 中控平台。门口屏幕、店内音响、各类传感器等都将「听从」AI 的指挥, AI 将实时掌握店铺 “数据脉搏”,并以此为依据进行决策,例如自动补货、调整室温等,尝试打通「物理世界」 与「数字世界」的接口 参观者或能亲眼见证 AI 如何像「智能大脑」一样,指挥店铺运转,从「聊天机器人」走向「智能实体」。 

摊牌了:我是群星玩家

工业时代的流程智慧,加上新一代 AI 算法,两者能否碰撞出适用于线下商业的创新火花?AGI Bar 就是我希望亲手打造的 ‘碰撞’ 现场,也是我想要认真观察的 ‘实验’ 样本。 我期待 AGI Bar 能在中关村创业大街,成为一个兼具科技感与烟火气的小店,让人们白天体验「AI 门店」,晚上在此放松交流,感受 AI 带来的新奇体验。 


酒吧是共创的:包括很多 AI 知名大厂,预计将在 3 月正式开放。目前正处于设计和施工阶段,设计部分由我的好朋友、首批共创伙伴「矩阵&暗壳」负责。


如果你也对 AI 驱动实体商业感兴趣,或对 AGI Bar 项目有任何想法,欢迎扫码进群,一起交流!(PS:在 AGI 真正来临之前,我暂代这里的主理人)



产业落地

当 AI 能够以精确、可执行的指令与物理世界沟通,实体经济的智能化变革才真正拉开序幕


AGI Bar 会沿着这个方向进行实践,透过这些探索,一起看看未来的可能:AI 不再仅仅是监控数据,而是能够发出指令,精细调控生产线的每一个环节:比如在工厂中,机械臂的动作、参数的调整、流程的优化,都由 AI 的智能决策驱动,实现高度柔性化和定制化的生产。而我们的城市,各种基础设施也会连接成一个整体,优化着各种信号网络与公共服务。 

再推荐一款休闲游戏:《幸福工厂》

这些变革的核心,都指向AI 从「建议者」 向「执行者」 的转变:不只是提供分析建议,而能够直接发出指令,操控物理世界的运行 。



最后

从符号到实体,AI 的进化正在开启一场意义深远的变革。AGI Bar 也只是一个最初步的尝试,希望可以利用结构化输出,让 AI 从虚拟空间向现实,逐步构建起连接智能与物理世界的桥梁。 

技术仍在快速发展,应用场景不断拓展,相关的讨论和研究也在持续深入。AI 实体化,并非一蹴而就的革命,而是一个循序渐进的过程。它能否真正普及,并对社会产生深远影响,仍然面临诸多挑战,也需要各界的共同努力。 


让我们拥抱变革,迎接挑战,乐见于 AI 走出屏幕,走进现实的那一刻。 

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 结构化输出 多端协同 预测性输出 AGI Bar
相关文章