LLM 就是内容创作者快速通向 O(n!) 表达之路 | 本质和形式系列-叙事结构@散沙

原创散沙 2024-11-14 00:02 北京

我曾经藐视，并且也会一直藐视那些用最好的交通工具、嘴上说着去南极却向北走的人。

Fish.Audio 是 Fish-Speech 开源作者平行开发的商业化项目。　

项目工程团队是 Github / HuggingFace 开源社区公认的AI语音技术创新者。　

项目目标是面向所有人呈现自然、有表现力的AI语音。　

https://fish.audio　

散沙，在 FishAudio 团队负责融资、外联、市场。　

这是 @散沙写在2024年末的「本质和形式」系列梳理。　

一共6篇，这是第1篇，主题为「叙事结构」。　

本质决定终点，形式决定速度。　

虽然人生的前30年，我是个完全关注本质，毫不关注形式的人，从来不重视任何意义上的形式。　

也正因为如此，不想认真组织语言、不想认真打理公众号、不想改善外观、不想与人类沟通，已经是常态了。　

现在稍微重视了一点形式，是因为我实在不愿意骑着自行车去南极。　

我曾经藐视，并且也会一直藐视那些用最好的交通工具、嘴上说着去南极却向北走的人。　

因为创业导致被动加载了过多的信息，整理了以下话题：

创业心智：企业家精神的构造

投资奇点：个人投资的杂谈

叙事结构：片面信息的组织

带货之王：亚文化潮流的兴起

公共语境：基本事实的虚像

死亡教育：自私基因的终焉

整理这些话题，是肚子里兜了太多想说给朋友以及未来自己的话。　

写下来纯粹是怕脑子不太好用，过阵子忘了。　

为什么要整理这些命题呢？　

因为有些人不关心终点，有些人不关心如何把过程过得好一点、刺激一点。　

无非就是持续进行听说读写想，说不定AI数字分身以后还能做成互动播客。　

2024年很多人都看到的自己这辈子能见过的最烂的经济了，不管在哪。　

当然，人的观测是有盲区的，比如就算我观察到了1998年的下岗潮，依然没有经历过1929年的大萧条。　

你的心态首先取决于你的锚点。　

不过我的经验就是，每一个让你特别想发牢骚的时候，反过来想，都是一个超级机会。　

想发牢骚的感觉越强烈，超级机会就越大。　

所以不能只看到形式的一面。　

看到本质，从而从本质延伸顺利抓住形式的另一面，是非常重要的。　

事实的扩展速度是线性的。　

叙事结构的扩展速度是指数的。　

想象一个场景：　

一张交通网络图，需要找到从所有城市到 A 的最短路径。　

网络中一共有 n 个端点 (城市)，端点之间的路径是线性的。　

那么，所有端点之间的距离信息储存在一个 n×n 的矩阵里，矩阵的信息量是 O(n^2)，一共有 O(n!) 种路径组合。　

但是你只需要 O(nlogn) 的时间，就能找到最优解。　

驱动这个计算背后的逻辑就是 Dijkstra 算法。　

有了这个逻辑，纵使信息千变万化，这个逻辑本身也只占用你脑子 O(1) 的空间。　

Dijkstra 算法　

荷兰计算机科学家 Edsger W. Dijkstra 于1956年提出的一种算法，用于在加权图中找到单一源点到其他所有端点的最短路径。　

逻辑往往只有一种。　

表象事实则是「原子事实+逻辑本质」的超级组合：　

在这种逻辑的驱动下，同一种环境、同一类资源、同一个周期…… (这些约束条件，或者类似于距离矩阵中的信息，或者叫更加原子的事实组合) 下的事实，会呈现出同一种稳定的表现形态。

但是政治环境、资源、行业周期的变化很慢。比如你很难自行叫停中美贸易战、恢复经济活力，更多只能被动接受；你也很难改进 N3E 芯片工艺，进度很慢了。

因此，约束条件更多表现为，生产资料的价格会随着供需波动，变化得稍微快一些，比如 H100 的算力单价。

当你成为了某个表象事实的消费者 (比如特朗普当选2024年美国总统)。　

那么，你只是消化了形式，没有消化本质。　

这也是为什么群体会对同一表现形态有着五花八门的解读，因为很多人只能片面地理解原子事实。　

甚至大部分媒体的解读，与最终选举结果是相悖的。　

为了快速解释这种极端的矛盾性，我用「农村包围城市」简单构建隐喻。　

隐喻的优势在于，两条几乎毫无关联的事实，可以参考同一套叙事结构的模板。　

实际上，LeetCode 题目的 o1 求解，已经能够构建所谓「理解事实」的某种隐喻：　

一道带着 subsequence 的题目，几乎能认定 DP (动态规划) 是一条快速通道，然后构造双游标，再构造优化目标函数的函数体……　

这或许算逻辑。　

人类大脑的肌肉记忆，o1 一样也有。　

叙事也是一样的。　

优秀的叙事结构，与寻找最短路径的过程类似。　

哪怕不为阐述深刻的事实，只是为了组织一个偏见、构造一个谣言……也依然需要叙事结构。　

它能让人在最短的时间里接受你希望传达的观念。　

近期，我的合伙人从大量工作里产生了一个思考：　

理解或阐述任务 (到A点去，或者研究距离矩阵) 是简单的，但生成一份线性内容去解释 (如何从B到达A) 却很难。　

不论是文本，还是语音。　

我个人重新解构了提出问题的方式。　

生成任务的难度在于：原子事实的总信息量高达 O(n^2)，但你不能去罗列所有的信息。　

这既浪费大量的篇幅，又浪费读者大量的时间。　

而把全面的原子事实快速排列组合，尽快生成一份有效的叙事结构，我想，这就是2022年之前文学系、新闻系存在的意义。　

关键在于如何评价一份叙事结构。　

优雅的散文或许符合大众的审美，但严肃文学不一定能激起大众的共鸣。　

你不能要求所有人都亲历特定历史，或者出身幸福家庭但能共情你的伤痕，更不能强制改造别人的政治光谱以及16型人格。　

DPO 的美感在于，你可以用大众的水平众包一个 MOS (音质质量) 打分，快速筛选优质语音样本；更可以在 AI Companion 行业，用多轮对话的方式找到每个人的偏好。　

DPO　

Direct Preference Optimization，直接偏好优化　

2023年提出的一种模型训练方法，主要用于让AI模型更好地按照人类偏好来优化输出。　

人与人之间悲欢的不同，来自于人与人原子事实距离矩阵 O(n^2) 的差异。　

而构建 Agent、使用 DPO，就是为了让叙事结构服务于这种差异。　

在线性叙事结构的条件下，你 Gen 了一些内容，就必然要放弃另外一些信息。　

哪怕那些信息「可能」对叙事有用。　

哪怕那些信息符合你此时此刻的表述目的和动机。　

你依然会为了叙事结构的完整和简洁，放弃掉那些相关性不强的信息源。　

Matt Rife 和付航是我最喜欢的2位脱口秀演员。　

在一些非比赛性质的演出中，他们最强的能力在于「现挂」。　

Matt Rife 被评价「平等地取笑每一个人，包括残疾人」。　

这在脱口秀演出会场，是完全能被接受的。　

付航非比赛性质的演出，也是这个风格，非常松弛；而比赛的时候，他更多是在「平等地取笑他人，以及自己」。　

所以，这种风格让他俩在完全不同的语言环境里，构建出了同样强悍的差异化：　

他们会把其他任何人的情境，快速拉到自己的思考方式和叙事结构里面。　

北美创业项目 Sonia 则有所不同。　

AI疗愈乃至AI玄学，实际上是把自己的内容嵌入到用户的叙事结构里面，或者用更模棱两可的万用模板让用户有一种「这说的就是我」的错觉。　

赚这份钱确实需要情商：开局「我懂你」，剩下全靠编。　

所以私域玄学大师们，靠的也是「现挂」。　

Sonia　

一款移动端AI应用，提供实时在线的个性化 CBT (认知行为疗法) 会话，帮助用户应对抑郁、焦虑等心理健康问题。　

只是，脱口秀演员的表演在舞台中心，人设和风格从开始已经基本定调。　

现挂，等于把没有任何提前安排的随机内容，吸收到他的叙事里。　

这真的不比「我懂你」更简单。　

我一直认为，自从游戏行业和流媒体诞生以来，普通观众虽然不能天天吃好的，但吃的还是太好了。　

不仅传统长内容 (悬疑电影、小说)、短内容 (海龟汤) 兼备，而且创作者们还在经常想办法满足不太容易满足的观众。　

叙述性诡计的精髓在于：　

：“你为什么不早告诉我？”　

：“你也没问啊。”　

如果你没读过《百年孤独》和《无人生还》，起码应该看过《盗梦空间》电影结尾经典的旋转陀螺留白。　

这些作品借助不同的观察视角，有效地控制住了故事进展的速率，让你不至于疲劳。　

他们共同的精髓在于：信息本身在时间轴上的一步步更新。　

这就像是一个一直在被更新的距离矩阵：　

随着故事的推进，当一个个 Inf (无穷大) 的元素被改变为有限的正值，你有限的脑子就需要重新执行一遍 Dijkstra 算法。　

如果说《盗梦空间》的结尾留白，让大脑对开放性结局的解读，强制性执行了两遍。　

那么《The Usual Suspects (非常嫌疑犯)》则是趁你不注意，把你的距离矩阵突然改成了 Inf —— 推翻了一切你觉得自己好像在推理的基础。　

《428：被封锁的涩谷》是我参加工作前最后一次摸游戏。　

它把 ADV 游戏做成了5条平行线，每条线都有自己的叙事结构，最后汇聚成一个故事。　

2011年任天堂 Wii 平台满分游戏，PSP 高分游戏，把我的体验通过互动和 100 多种开放结局的方式推向顶峰。　

不过，自 NetFlix 的《Black Mirror: Bandersnatch》互动剧往后，这种「互动内容+叙述性诡计」的形态，仿佛一直都在走下坡路。　

我也有不喜欢看的书和我认为艰深难懂的书。　

希望1年内看到陪读功能。　

有朋友在做，掌阅也在做，都是雏形。　

我也看综艺和明星大侦探。　

看综艺总让我熬夜，看明侦却总能让我在5分钟以内睡得很香。　

毕竟除了俊男美女，我还在消耗脑力思考带「叙述性诡计」的剧情。　

线性的表述、线性推进的剧情、参与者之间的互动，我不用花剧本杀的钱，就能作为旁观者享受到推理的乐趣。　

如果你只关注形式、不关注本质，那你很难具备相称的能力加入到创业团队。　

至少做 FA (Financial Advisor) 的时候，高效的 Pitch 需要关注此刻市场投资人最关心什么，而不是你有多么深刻的洞见。　

你需要给投资人准备一份适合他们独特品味的「叙事结构」大礼包。　

就像《428：被封锁的涩谷》一样。　

前提是他们真的有独特的品味，并在投资组合里面呈现出投资逻辑的一贯性。　

至于我，起码这方面基本还是老实人，需要在 Due Diligence 本质以外，补充一些巧妙的形式。　

当然巧妙的形式叫不醒装睡的人，说不服不看本质无脑套公式的人，也挡不住一颗无脑压价的心，更防不了一些作为投资人而言非常不专业的怪操作。　

具备专业性的投资和融资动作，往往都要以全面甚至立体的信息为基础。　

从对标、类比开始，以产业结构、成本结构、供需能力为依据，以逻辑、预测为重点。　

而不能仅仅停留在一个线性的 Pitch Deck。　

这部分内容，请参考本系列的后续推文—— 《创业心智》和《投资奇点》。　

但至少对于这一轮创业来说，LLM 就是内容创作者快速通向 O(n!) 表达之路：探索独特的叙事，也许还会持续性带来交互式内容全新的体验。　

阅读愉快　

The End　

↑ @散沙的公众号 ↑　　

↑ ShowMeAI 的公众号 ↑　

由「带带弟弟排版器」呈现

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签