原创 散沙 2024-11-14 00:02 北京
我曾经藐视,并且也会一直藐视那些用最好的交通工具、嘴上说着去南极却向北走的人。
Fish.Audio 是 Fish-Speech 开源作者平行开发的商业化项目。
项目工程团队是 Github / HuggingFace 开源社区公认的AI语音技术创新者。
项目目标是面向所有人呈现自然、有表现力的AI语音。
https://fish.audio
散沙,在 FishAudio 团队负责融资、外联、市场。
这是 @散沙 写在2024年末的「本质和形式」系列梳理。
一共6篇,这是第1篇,主题为「叙事结构」。
本质决定终点,形式决定速度。
虽然人生的前30年,我是个完全关注本质,毫不关注形式的人,从来不重视任何意义上的形式。
也正因为如此,不想认真组织语言、不想认真打理公众号、不想改善外观、不想与人类沟通,已经是常态了。
现在稍微重视了一点形式,是因为我实在不愿意骑着自行车去南极。
我曾经藐视,并且也会一直藐视那些用最好的交通工具、嘴上说着去南极却向北走的人。
因为创业导致被动加载了过多的信息,整理了以下话题:
创业心智:企业家精神的构造
投资奇点:个人投资的杂谈
叙事结构:片面信息的组织
带货之王:亚文化潮流的兴起
公共语境:基本事实的虚像
死亡教育:自私基因的终焉
整理这些话题,是肚子里兜了太多想说给朋友以及未来自己的话。
写下来纯粹是怕脑子不太好用,过阵子忘了。
为什么要整理这些命题呢?
因为有些人不关心终点,有些人不关心如何把过程过得好一点、刺激一点。
无非就是持续进行听说读写想,说不定AI数字分身以后还能做成互动播客。
2024年很多人都看到的自己这辈子能见过的最烂的经济了,不管在哪。
当然,人的观测是有盲区的,比如就算我观察到了1998年的下岗潮,依然没有经历过1929年的大萧条。
你的心态首先取决于你的锚点。
不过我的经验就是,每一个让你特别想发牢骚的时候,反过来想,都是一个超级机会。
想发牢骚的感觉越强烈,超级机会就越大。
所以不能只看到形式的一面。
看到本质,从而从本质延伸顺利抓住形式的另一面,是非常重要的。
事实的扩展速度是线性的。
叙事结构的扩展速度是指数的。
想象一个场景:
一张交通网络图,需要找到从所有城市到 A 的最短路径。
网络中一共有 n 个端点 (城市),端点之间的路径是线性的。
那么,所有端点之间的距离信息储存在一个 n×n 的矩阵里,矩阵的信息量是 O(n^2),一共有 O(n!) 种路径组合。
但是你只需要 O(nlogn) 的时间,就能找到最优解。
驱动这个计算背后的逻辑就是 Dijkstra 算法。
有了这个逻辑,纵使信息千变万化,这个逻辑本身也只占用你脑子 O(1) 的空间。
Dijkstra 算法
荷兰计算机科学家 Edsger W. Dijkstra 于1956年提出的一种算法,用于在加权图中找到单一源点到其他所有端点的最短路径。
逻辑往往只有一种。
表象事实则是「原子事实+逻辑本质」的超级组合:
在这种逻辑的驱动下,同一种环境、同一类资源、同一个周期…… (这些约束条件,或者类似于距离矩阵中的信息,或者叫更加原子的事实组合) 下的事实,会呈现出同一种稳定的表现形态。
但是政治环境、资源、行业周期的变化很慢。比如你很难自行叫停中美贸易战、恢复经济活力,更多只能被动接受;你也很难改进 N3E 芯片工艺,进度很慢了。
因此,约束条件更多表现为,生产资料的价格会随着供需波动,变化得稍微快一些,比如 H100 的算力单价。
当你成为了某个表象事实的消费者 (比如特朗普当选2024年美国总统)。
那么,你只是消化了形式,没有消化本质。
这也是为什么群体会对同一表现形态有着五花八门的解读,因为很多人只能片面地理解原子事实。
甚至大部分媒体的解读,与最终选举结果是相悖的。
为了快速解释这种极端的矛盾性,我用「农村包围城市」简单构建隐喻。
隐喻的优势在于,两条几乎毫无关联的事实,可以参考同一套叙事结构的模板。
实际上,LeetCode 题目的 o1 求解,已经能够构建所谓「理解事实」的某种隐喻:
一道带着 subsequence 的题目,几乎能认定 DP (动态规划) 是一条快速通道,然后构造双游标,再构造优化目标函数的函数体……
这或许算逻辑。
人类大脑的肌肉记忆,o1 一样也有。
叙事也是一样的。
优秀的叙事结构,与寻找最短路径的过程类似。
哪怕不为阐述深刻的事实,只是为了组织一个偏见、构造一个谣言……也依然需要叙事结构。
它能让人在最短的时间里接受你希望传达的观念。
近期,我的合伙人从大量工作里产生了一个思考:
理解或阐述任务 (到A点去,或者研究距离矩阵) 是简单的,但生成一份线性内容去解释 (如何从B到达A) 却很难。
不论是文本,还是语音。
我个人重新解构了提出问题的方式。
生成任务的难度在于:原子事实的总信息量高达 O(n^2),但你不能去罗列所有的信息。
这既浪费大量的篇幅,又浪费读者大量的时间。
而把全面的原子事实快速排列组合,尽快生成一份有效的叙事结构,我想,这就是2022年之前文学系、新闻系存在的意义。
关键在于如何评价一份叙事结构。
优雅的散文或许符合大众的审美,但严肃文学不一定能激起大众的共鸣。
你不能要求所有人都亲历特定历史,或者出身幸福家庭但能共情你的伤痕,更不能强制改造别人的政治光谱以及16型人格。
DPO 的美感在于,你可以用大众的水平众包一个 MOS (音质质量) 打分,快速筛选优质语音样本;更可以在 AI Companion 行业,用多轮对话的方式找到每个人的偏好。
DPO
Direct Preference Optimization,直接偏好优化
2023年提出的一种模型训练方法,主要用于让AI模型更好地按照人类偏好来优化输出。
人与人之间悲欢的不同,来自于人与人原子事实距离矩阵 O(n^2) 的差异。
而构建 Agent、使用 DPO,就是为了让叙事结构服务于这种差异。
在线性叙事结构的条件下,你 Gen 了一些内容,就必然要放弃另外一些信息。
哪怕那些信息「可能」对叙事有用。
哪怕那些信息符合你此时此刻的表述目的和动机。
你依然会为了叙事结构的完整和简洁,放弃掉那些相关性不强的信息源。
Matt Rife 和付航是我最喜欢的2位脱口秀演员。
在一些非比赛性质的演出中,他们最强的能力在于「现挂」。
Matt Rife 被评价「平等地取笑每一个人,包括残疾人」。
这在脱口秀演出会场,是完全能被接受的。
付航非比赛性质的演出,也是这个风格,非常松弛;而比赛的时候,他更多是在「平等地取笑他人,以及自己」。
所以,这种风格让他俩在完全不同的语言环境里,构建出了同样强悍的差异化:
他们会把其他任何人的情境,快速拉到自己的思考方式和叙事结构里面。
北美创业项目 Sonia 则有所不同。
AI疗愈乃至AI玄学,实际上是把自己的内容嵌入到用户的叙事结构里面,或者用更模棱两可的万用模板让用户有一种「这说的就是我」的错觉。
赚这份钱确实需要情商:开局「我懂你」,剩下全靠编。
所以私域玄学大师们,靠的也是「现挂」。
Sonia
一款移动端AI应用,提供实时在线的个性化 CBT (认知行为疗法) 会话,帮助用户应对抑郁、焦虑等心理健康问题。
只是,脱口秀演员的表演在舞台中心,人设和风格从开始已经基本定调。
现挂,等于把没有任何提前安排的随机内容,吸收到他的叙事里。
这真的不比「我懂你」更简单。
我一直认为,自从游戏行业和流媒体诞生以来,普通观众虽然不能天天吃好的,但吃的还是太好了。
不仅传统长内容 (悬疑电影、小说)、短内容 (海龟汤) 兼备,而且创作者们还在经常想办法满足不太容易满足的观众。
叙述性诡计的精髓在于:
:“你为什么不早告诉我?”
:“你也没问啊。”
如果你没读过《百年孤独》和《无人生还》,起码应该看过《盗梦空间》电影结尾经典的旋转陀螺留白。
这些作品借助不同的观察视角,有效地控制住了故事进展的速率,让你不至于疲劳。
他们共同的精髓在于:信息本身在时间轴上的一步步更新。
这就像是一个一直在被更新的距离矩阵:
随着故事的推进,当一个个 Inf (无穷大) 的元素被改变为有限的正值,你有限的脑子就需要重新执行一遍 Dijkstra 算法。
如果说《盗梦空间》的结尾留白,让大脑对开放性结局的解读,强制性执行了两遍。
那么《The Usual Suspects (非常嫌疑犯)》则是趁你不注意,把你的距离矩阵突然改成了 Inf —— 推翻了一切你觉得自己好像在推理的基础。
《428:被封锁的涩谷》是我参加工作前最后一次摸游戏。
它把 ADV 游戏做成了5条平行线,每条线都有自己的叙事结构,最后汇聚成一个故事。
2011年任天堂 Wii 平台满分游戏,PSP 高分游戏,把我的体验通过互动和 100 多种开放结局的方式推向顶峰。
不过,自 NetFlix 的《Black Mirror: Bandersnatch》互动剧往后,这种「互动内容+叙述性诡计」的形态,仿佛一直都在走下坡路。
我也有不喜欢看的书和我认为艰深难懂的书。
希望1年内看到陪读功能。
有朋友在做,掌阅也在做,都是雏形。
我也看综艺和明星大侦探。
看综艺总让我熬夜,看明侦却总能让我在5分钟以内睡得很香。
毕竟除了俊男美女,我还在消耗脑力思考带「叙述性诡计」的剧情。
线性的表述、线性推进的剧情、参与者之间的互动,我不用花剧本杀的钱,就能作为旁观者享受到推理的乐趣。
如果你只关注形式、不关注本质,那你很难具备相称的能力加入到创业团队。
至少做 FA (Financial Advisor) 的时候,高效的 Pitch 需要关注此刻市场投资人最关心什么,而不是你有多么深刻的洞见。
你需要给投资人准备一份适合他们独特品味的「叙事结构」大礼包。
就像《428:被封锁的涩谷》一样。
前提是他们真的有独特的品味,并在投资组合里面呈现出投资逻辑的一贯性。
至于我,起码这方面基本还是老实人,需要在 Due Diligence 本质以外,补充一些巧妙的形式。
当然巧妙的形式叫不醒装睡的人,说不服不看本质无脑套公式的人,也挡不住一颗无脑压价的心,更防不了一些作为投资人而言非常不专业的怪操作。
具备专业性的投资和融资动作,往往都要以全面甚至立体的信息为基础。
从对标、类比开始,以产业结构、 成本结构、供需能力为依据,以逻辑、预测为重点。
而不能仅仅停留在一个线性的 Pitch Deck。
这部分内容,请参考本系列的后续推文—— 《创业心智》和《投资奇点》。
但至少对于这一轮创业来说,LLM 就是内容创作者快速通向 O(n!) 表达之路:探索独特的叙事,也许还会持续性带来交互式内容全新的体验。
阅读愉快
The End
↑ @散沙的公众号 ↑
↑ ShowMeAI 的公众号 ↑
由「带带弟弟排版器」呈现