十字路口Crossing 03月08日
20个问题,解读AI视频元年|对谈 Luma AI 产品经理 Barkley
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文回顾了Sora发布一年来AI视频模型领域的创新与变革,探讨了主要玩家的动向。Luma.ai的产品经理Barkley分享了他对行业发展的观察,包括技术范式的演进、各家公司的定位以及硅谷对国内视频模型的看法。文章还深入探讨了世界模型的概念及其对AGI的意义,以及研究路线与商业化之间的平衡。通过20个问题,梳理了AI视频模型领域的最新变化和进展,为读者建立清晰而系统性的认知。

🚀Sora的发布验证了视频模型的DIT架构,推动了视频生成和模型质量的巨大飞跃,后续模型基本遵循此路线,但在物理世界理解、一致性保持和人物生成等方面持续迭代。

💰Luma AI发布了新一代Ray2模型,该模型能准确理解物理规律,并在动漫等垂类领域表现出色。Luma AI的定位更像是一个Research Lab,致力于实时视频生成和视频理解等前沿研究,目标是让视频模型更好地理解物理世界规律。

🌍行业玩家定位各异:DeepMind和OpenAI致力于多模态输入输出和AGI方向;Runway专注于影视领域;Luma AI偏向prosumer市场;Pika则侧重消费端AI特效。国内方面,海螺着眼全球增长,可灵关注商业化指标,Pixverse定位与Pika类似。

🤔硅谷AI研究社区存在语言模型和世界模型/视觉模型阵营的辩论。世界模型旨在让AI理解和模拟世界的物理规律,从而实现对视觉信息的精准理解和生成,这是通往视觉AGI的关键一步。

原创 十字路口 2025-03-07 20:45 上海

从 Sora 惊艳亮相到群雄逐鹿的一年

上周,我们的「20问」栏目上线,非常感谢大家的支持,给了我们继续加油的动力!本周,我们继续通过 20 个问题来梳理一个领域的进展:AI 视频模型。

2024 年 2 月 15 日,Sora 惊艳登场,令业界为之瞩目。视频模型与视频生成应用迅速成为 AI 领域的焦点方向。2024 年呈现出群雄逐鹿的局面:硅谷有 Pika、Runway 和 Google 旗下的 DeepMind,国内则有海螺、可灵、Vidu、PixVerse,以及腾讯混元、字节豆包等玩家。

本期「十字路口」,我们邀请到硅谷一线的视频模型初创企业 Luma.ai[1] 的产品经理 Barkley(他也是 Luma 这个融资了 1.6 亿美金的团队的唯一 PM)。

通过 20 个问题,我们将探讨这一年来 AI 视频模型领域的创新与变革,了解主要玩家的动向。同时,他将分享作为行业参与者,对 Sora 上线这一年来的观察,对当前工程和管理能力 v.s. 算法突破的分析,以及他人在硅谷,对大家在讨论什么,产品经理这个工作的变化的一线体会。

在聊天中,Barkley 还跟我们讲了他在 After party 上遇到 Sam Altman 并和他交流「视觉是否是通往 AGI 的必要路径」的话题。希望这次有观察有分析,也有一些行业八卦含量的内容,对大家有帮助。

ps: Barkley 曾是 Koji 在「躺岛」的出海营销实习生,我们都是典型的「跨界者」。从品牌营销、消费品、到科技互联网和 AI,这种跨界经历恰恰呼应了「十字路口」的主题:跨界思维往往能带来独特的视角和洞察,在快速迭代的AI时代,这种多元背景反而是差异化竞争力的来源。


微信收听播客:


小宇宙收听播客:



Luma AI 的发展与 Ray2 模型

? Koji

本周的十字路口,我们邀请到了 Luma AI 的产品经理 Barkley

Luma AI 是全球领先的 AI 视频模型公司,他们前后融了 1.6 亿美金差不多超过 10 亿人民币,所以他们一举一动几乎都是受到全行业的瞩目,也被誉为是 OpenAI 的 Sora 头号劲敌之一。

它同时令我们感到意外的是:「一个融了快 10 亿人民币的公司,竟然只有一位产品经理。」我们也很开心能够请到 Barkley 这唯一的一位产品经理来到十字路口。

本周同样是十字路口的「20 问」专栏,我们给 Barkley 准备了 20 个启发式的问题。希望可以和 Barkley 一起来帮助大家在信息繁杂的当下,建立起对 AI 视频模型这个行业最新的变化,最新的进展,形成一个清晰而系统性的认知。我们首先有请 Barkley 来介绍一下自己。


?? Barkley

感谢 Koji 和 Ronghui 的邀请。对我也是之前在听了很多期的十字路口,很荣幸能够来上这个播客聊一聊在 AI 视频领域的一些进展和我的观察。

我叫 Barkley,中文名叫戴高乐在 Luma 做视频模型层的 PM主要负责的是数据和模型评测的工作

我是本科在美国毕业以后,在 TikTok 做产品经理。当时是在 TikTok 的特效组,在特效组的时候接触到视频生成和图像生成的领域。后来就一直在做一些结合 CV 技术以及 Diffusion 相关的技术,在 AI 特效上的应用。

然后在 2023 年的六月份的时候加入 Luma,当时 Luma 还是做一个 3D 生成的公司,我们当时在做的是 3D 重建和 3D 生成,然后大概在 23 年底的时候开始转向去做视频。我也是跟着公司从原来做 3D 方向的这些数据和一些功能转向做视频的。

最开始是做评测,然后到逐渐去 handle 数据和 fine tune 这方面的工作。这是大概我一个简单的个人介绍。


? Koji

我们开始我们的 20 个问题。

第一个问题是我们录播课的时候,正好是 Sora 发布整整一周年。但其实好像过了快 5 年、8 年甚至 10 年那么久。但是想想去年的此刻 Sora 刚发布的时候,是中国的大年初二、初三。然后那天半夜醒来一摸手机,感觉这个朋友圈都在刷屏,很震惊。

然后发布这一年之后,感觉这个世界是日新月异的在变化,尤其在 AI 模型的这个领域。所以第一个问题是想问一下 Barkley,你在一线感觉 Sora 发布一周年之后,在 AI 领域有没有出现视频模型的范式上的创新?


?? Barkley

我觉得看怎么定义这个范式的创新,在模型层和它的架构上应该是没有什么太大变化的。

因为 Sora 发布的这个时间点,它其实验证的是视频模型的 DIT 架构,就是 Diffusion Transformer,这个架构取代了原来纯靠 UNet 加 Diffusion 相关的视频架构,让整个视频的生成以及模型的质量有一个巨大的飞跃。

在此之后的这些视频模型,基本上都是 follow DIT 这样的一个路线但是在产品上以及在这些功能上面,其实我觉得出现了非常多的可能算不上是特别重要的范式创新,但是它可能是一些逐步的迭代。比如说对于物理世界的理解,比如说对于一致性保持这样的一些研究和相关的在产品上体现的进展,以及对于人物的生成和动作的生成。

它实际上呈现了一个逐步迭代的过程,新的模型架构不断改进,技术层面的更新持续带来变化。

因此我认为,虽然这是一种范式创新,但可能并不完全算是一次革命性的范式转移 (paradigm shift) 那样的彻底改变。


? Koji

第二个问题,大家也很会很好奇 Luma AI。

Luma AI 融了那么多钱,那你们最近这几个月主要在做一些什么?看看方便透露到什么程度?


?? Barkley

我们过去的这个月刚发布我们的新一代 Ray2 的模型这个 Ray2 我们最开始发的是文生视频,然后逐步的也在上周发布了图生视频,在创作者社区反馈都是很好的。

因为它一方面是准确的理解了很多物理世界的规律,这个可能在过去的一些模型上不能体现的一些物理规律,比如说一个小球从一个阶梯上滚下来,这样它的对于精准的物理规律的模拟。另外一个是我们在一些垂类的领域,比如说在动漫上面会做了一些微调和在他们的数据上的处理。然后能够让我们的模型在这些垂直领域也表现得很好,而不是像过去那样仅仅是一个通用型 (general) 模型,只在生成真实视频方面表现出色。

我们在此之上会再做很多的研究性的工作。因为我们对自己的定位是更像一个 Research Lab,这个 Research Lab 还是以研究为主的。所以我们会比如说在实时的视频的生成,包括在视频理解的模型上面,会做很多前沿性的研究。

最终的目的也是想让这个视频模型更好的去理解我们现在的物理世界的规律。尽管说我们觉得现在的 Ray2 模型已经做的很好了,但是我们看到说 scaling law 在这个视频模型上仍然是有效的,那我们还是可以把这个去推到下一个的新高度。

视频模型的评测标准

? Koji

其实我会比较好奇,你们做自己的视频模型,然后也会关注其他们的视频模型。当每次有新模型出现的时候,你们用什么样的方式去评估说这个模型它到底做的怎么样呢?

因为感觉它不太像语言模型,就是会有很多的标准 benchmark、标准答案,比如解数学题,解编程题,在视频模型领域怎么去评估一个模型做出来的就是好的。这个 benchmark 是一些什么?


?? Barkley

我觉得现在市面上确实有公开的 benchmark 不多。对于我们来说,我们会自己去定义一些。

我们通过用户访谈,通过对于 creator community 的了解,觉得说合理的一些指标,比如说其中的一个指标可能是美学,就是 esthetics,也就是它的审美,当然这个审美可能是因人而异的。那这种情况下,如果这个视频模型它有 API 的话,我们会批量的去跑一批视频。然后依赖于一个全球众包的这样一个网络,去做这个视频的评测,来判断说在美学上可能哪个更好。

另外一些是比如对真实物理世界的规律,这个其实 Google 有一个 benchmark,我不记得具体名字了,但是它是选用了一批他们觉得能够代表这个物理世界运行规律的 prompt,然后看一看不同的模型在这一批 prompt 上面跑的效果。所以我们有时候也会做一批专门的 prompt 来测试,比如说模型在对于真实世界模拟上的效果。然后除此之外的话,可能就还有对于一致性,对于 prompt alignment,就是它多好的能够 follow 大家的 instruction 这样的一些标准,我们确实非常的主观,但是是我们根据 creator 的调研,根据我们对这个视频模型的这些使用场景的了解,去定下的一些评判标准。


? Koji

这就有一个非常直接简单的问题,那你现在觉得全世界谁最强?


?? Barkley

我觉得客观来讲,我们试过的效果上 Veo 2 现在应该是最强的,就 Google 的这个模型。

当然所有的模型我觉得都有一定程度的 trade-off。比如说很多时候在动作和一致性上面会有一些 trade-off。

比如说如果你这个模型的动作幅度很大的话,那它的一致性相对来说就更难保持。如果它的美学比较好的话,那它的多样性可能比较难以保持,会有这样的 trade-off。

然后包括 inference 上面它的模型的大小,一个模型它效果越好,但是它有的可能 inference 的时间就会比较长。对于 Veo 2 来说,我们觉得它的效果,从纯生成的这些视频的 clip (视频片段)上面,可能是我们目前觉得说行业里大家认为最好的,但是可能它的生成的时间也会比较长。

行业主要玩家及其定位


? Koji

那我们的第五个问题,请 Barkley 来帮大家盘点一下,刚才只是说了 Luma AI 你们自己在做什么,大家应该也很想知道主要的玩家都在做什么。

比如说在硅谷的除了 Sora,应该还有 Pika,还有 Runway,还有 Google DeepMind 他们做的 Veo 2。在国内有海螺、可灵,还有 Vidu,还有 Pixverse,然后其实还蛮多的,这个竞争很热闹。所以可不可以给大家讲一讲他们分别都在干嘛?


?? Barkley

好,我觉得我可能说的不是特别准确,所以如果说错的话那就不要怪我,这是我的个人的理解(笑)。

首先就是我们觉得比较偏大厂一点的,我们已经把 OpenAI 视为一个大厂的,就是海外的这边的 DeepMind 和 OpenAI。DeepMind 的话就是一直在推进他们的 Veo 的模型。然后我觉得 DeepMind 的范围还是比较广的,在结合他们的各种多模态的能力,像比如说他们最近挖了那个 OpenAI  Sora 的 Tim Brooks 去那边做所谓的世界模型的概念。可能他们会在想,在把 Veo2 这个视频模型推到更极致的同时,也会考虑说怎么去做多模态的输入和输出。

OpenAI 其实在发布 Sora 以后,就是在发布了 Sora 的真实的产品以后,大家的对他的评价是感觉可能比较拉垮,大家有一个预期落空的感觉。但据我了解就是 Sora 还是在不断的去迭代他们的新一代的模型的,以及结合 OpenAI 的本来在多模态视觉理解上的能力,应该也是更想往一个更加偏 world model,更加偏 AGI 的方向去走。

Runway 的话更多可能 focus 在影视领域,就是他们会做很多的专业的剪辑,包括跟影视的一些 studio 合作,想在影视领域方面能做到最好的视频生成的效果。

我们目前的定位可能更加偏 prosumer (专业消费者),我们不一定想去直接去做最高端的这些影视,或者是跟这些大的公司合作。但可能更多的是在找一些中小型的这些个人独立的视频制作者。

我们对 prosumer 的定义是他们用我们的产品能够省下来的钱,能够远超于我们现在产品的这个 subscription price。我们认为说这对他们来说是一个非常强的 retention level(保留率水平),他们会愿意为此持续的付费。

Pika 跟我们的区别可能是他们更 focus 在 consumer 端,因为 Pika 现在在做很多的 AI 特效,通过视频去创作这样的爆款,然后很多这些爆款更多是 focus 在小白用户,拿 AI 作为娱乐用途。Pika 通过这个来打入消费者的市场。

这些是我对美国的这些玩家的理解。

然后,国内的我可能信息了解的更少,我的外部的感觉是觉得海螺是一个更偏这种争取全球的增长的量级的目标,我感觉他们在全球的用户量级是很大的,但是可能这不一定那么 focus 在盈利的方面,还是想主要去探索一些不同的国家,不同的地区,然后大家在一个偏 C 端的场景的使用可能是什么样的。

可灵,我的感觉是他们会更 focus 在商业化的指标。他们会想说怎么把模型做得更好的同时,能够保证这个业务是有一个正向的收入和增长。然后他们会更 care 说在一些关键的国家和地区,商业化的收入,以及他们每一个视频推理生成的毛利是什么样的。

Pixverse 感觉更偏像 Pika 在美国的定位,更加做特效和比较 C 端消费的场景。其他的像 Vidu 和包括腾讯的混元,其实我了解的不多,所以我其实不太知道他们的具体的定位和方向。

凭着简单的感觉的话,可能混元是一个开源的模型,所以我感觉更多他们是为了构建自己的这种生态,然后 Vidu 可能也还是在偏研究和 prosumer 的这样一个定位。


? Ronghui

第六个问题,以你自己一线的感受。你觉得在硅谷对国内的这些视频模型也好,应用也好,大家都是怎么样聊他们的?在 DeepSeek 前后会不会有一个不一样?


?? Barkley

我觉得分两块,一个是从业者,在从业者上,我们其实对国内的视频模型公司,包括我特别是负责模型评测的时候,其实都会 cover 到。所以我们对国内视频公司的效果其实是保持持续的关注和了解的。确实我觉得在视频模型这一块,很多国内公司做的很强。然后其实过去一年我们发现这个趋势就是在大体上都符合一个规律,就是「谁最后发布的模型,然后那个模型的效果可能是最好的。」因为自然而然这个模型训练了更久的时间,然后也打磨了更久,看过更多的数据,做了很多的优化,也积累了之前模型的一些特点。

但我觉得另一方面是在硅谷的这些创作者们,倒不一定是在硅谷,但你就 in general 在美国的这些创作者们,我觉得可能在之前对于国内的这些视频模型没有太多的了解。然后他们可能惯性上会更多的去使用美国这些本土的,像 Runway,像我们,包括像 Sora 出来之后还是吸引了很多艺术家去用。

然后这些 creators 他们在之前可能也只是在推特上面看到了一些关于可灵,关于海螺的这些信息。然后有了这些比较高端的 creator,他们可能尝试去用了。但我感觉是 DeepSeek 以后,出圈了之后,会有很多的这种 Twitter 的 post。就是说大家在关注 DeepSeek 也要关注一下中国的这些视频模型公司,然后看说他们的效果其实也都挺好的,然后就会有各种「自来水」去宣传可灵和海螺的效果。当然这个特别是可灵在 DeepSeek 发布的这段时间,也持续的推出了新的模型的版本,然后会吸引大家更多的关注。


? Koji

我们第七个问题,刚才在我们聊到各个公司的时候,我听下来好像是有两个大的路线。一个路线是比较偏用户端的,另外一个路线是比较偏研究端的。

那在你看来怎么去理解这些不同的路线的选择,以及选完路线之后都是谁选了什么路线,然后选完之后大家这个工作重心会出现明显的不一样吗?


?? Barkley

我觉得其实这些差距在一开始,特别是在现在这个阶段,我觉得都不明显。但我觉得这个很取决于创始人他的愿景和想法是什么。

像我们是一直在坚定的说要去追求一个更大的一个视觉理解的世界模型。我们认为说这是通向 AGI 不可少的一部分。所以我们在研究上不会专注于只是在视频生成本身,而是同时会做很多视觉理解的模型的研究。然后可能我们也会做一些在前沿领域,在成功的概率上可能看起来目前不大,但是我们觉得如果他有概率能成功的话,会是一个新的突破的这样的一些方向。

我觉得这个是需要很大的一个是愿景的支撑,另一个是持续的投入的。

因为对于 research 来说,一个很典型的特点就是你永远不知道 research 能够产出什么东西。很有可能十个 research 里面九个想法都是 failed 的,最后发现是不可行的。

但如果有一个可行的话,那 scale up 后能够起到出其不意的效果,我觉得就是 Sora 的一个范式创新就是这样的。但是这个确实是需要一定的成本投入,以及公司愿意长期去做这个事情,所以我觉得我们还是更把自己定为一个 Research Lab 的属性的情况下,这一块对于我们的投入是始终持续坚持在做的。然后我觉得对于其他家的话,像 DeepMind 的,像 OpenAI 他们这些大玩家也一直都是在持续的想去追求 AGI 的。

他们也会认为说多模态,包括视频的理解和视频的生成,是通向 AGI 的一块关键的钥匙。他们也会持续研究不同模型之间的差异,并不断进行技术迭代。Runway 之前也是提出过世界模型的概念,然后我觉得他们可能也是有一部分的 research 会 focus 在这个方向。

但在一些更偏应用层的公司,当然也还是会继续迭代他们的模型,但我觉得可能会更 focus 在视频生成本身。就是这个视频生成以后怎么应用,如何去符合现在的消费场景,以及它未来可能能够创造出一些什么样的新形态,我觉得这两种其实也不算是一个特别明显的路径的选择。因为现在我们觉得在视频模型可能还在一个非常早期,甚至没有到语言模型的 GPT3 的阶段的时候,这些路径的选择都不是特别的明晰。但我觉得可能在接下来几年,这些差距会逐渐的显现出来。

研究路线与商业化的平衡

? Ronghui

这里我其实想补充一个问题,你刚刚提到你们公司可能相对来说比较偏 research 的这个定位跟方向。

那你方不方便透露,你们公司会怎么来看这个做 research 的投入跟作为一个公司商业化的平衡要怎么处理呢?因为比如说 OpenAI 它之前有很长时间被讨论的,它存在要平衡这个问题的难点以及它前期的这些巨额的投入。

你认为做视频模型的公司所面临的平衡问题,是否与 OpenAI 这类专注于文字模型的公司类似?还是可能有完全不同的发展路径?


?? Barkley

我先回答第一个问题,就是在投入 research 和商业化的这个抉择上,我觉得其实我们是今天更站在投入 research 那边的。商业化对我们来说确实是一个相对重要,但不是那么重要的指标。

我们确实现在更多靠的是融资的钱,在持续的进行下一代 research。但是同时也保证说我们在 inference,包括在 research 上的 cost 是相对可控的。

这点上,在美国的这些 VC 相对还是给予很多的长期主义的信任,就会说投入这个钱,甚至到最新一轮的融资的时候,其实也没有明确的对我们的商业化的数据做出任何的要求,但更多的是想看我们怎么去实现在视觉领域的,不管是 AGI 还是这样一个世界模型的定义,这个方向是什么样。

所以我觉得在这点上,可能本来是我们也是一直是以一个 Research Lab 的定义的方向。然后也是在这边硅谷的 VC 对我们的了解,然后给予我们的这样一个信任。


? Ronghui

做视频模型,跟做文字模型,策略是不一样的吗?


?? Barkley

总体上我们相信 scaling law 是会一样的。

也就是我们过去两年在文字领域看到的同样的发展,会在视频模型上重演。

大家不断扩大模型规模,直到模型具备基础通用能力后,可能会发展出比 GPT-4 基础模型更大的规模,并开发相应的推理能力——这更多关于理解真实世界并推理其客观规律。这一发展路径与文字模型不会有太大差别,因为都基于 Transformer 架构。Transformer 的核心在于不断完善训练数据,期待模型涌现新能力。

视频模型与语言模型的不同之处在于,视频数据量级更大且噪声更多。一个视频中包含的信息并非全部有用,但模型通常会接收全部内容。让模型理解这些信息间的关系和规律,比单纯扩大语言模型的数据规模更具挑战性。因此,在工程实践上,视频模型可能需要采用与语言模型完全不同的训练方式。


? Koji

我们的第八个问题是,网上也有很多人会提到通向 AGI 的必要路径有可能并不是文本,而是视觉,你怎么看这个问题?


?? Barkley

在硅谷的 AI 研究社区中存在一场辩论,分为语言模型阵营和世界模型/ 视觉模型阵营。

在语音模型这块,Anthropic (Claude 的母公司)坚信只要继续扩展语言模型,它就能通过人类语言资料库理解世界关系,因此 Claude 一直未开发多模态模型。相反,Meta 的首席科学家杨立昆和李飞飞则认为人类主要通过视觉学习世界规律,视觉反馈是直观过程,因此视觉模型不可或缺。

去年 OpenAI 的 dev day 后,我偶遇 Sam Altman 并询问他关于 Sora (当时尚未发布) 的问题,以及视频生成是否是通向 AGI 的必经之路。他反问我是如何学习世界规律的,是否通过观察?我回答: 「是」。

Sam Altman 对我说:“我们不能期望一个只会 「读书」的模型学到世界所有规律,所以 Open AI 肯定会去做视觉理解的。”

这让我感觉 OpenAI 虽然可能在 Sora 方向上投入不多,但仍会加大对视觉和多模态研究的投入。

世界模型的定义与愿景

? Koji

刚才正好聊到李飞飞,其实我们的第九个问题就是想请你给大家科普一下,李飞飞的世界模型到底是什么?


?? Barkley

我觉得可能不同的人的定义不一样。所以我理解的世界模型可能源自于包括我看到李飞飞的演讲,还有包括杨立昆他之前的一些公开的演讲信息。

但我觉得这个世界的世界模型,在硅谷的理解有两块,一块是对这个世界的理解,也就是「所有世界的物理规律」。比如说我现在如果手里举着一个杯子,然后这个杯子当我松手的时候落下,这个杯子在地上会摔成什么样的形状,重力的影响、地面的摩擦力的影响、不同材质的影响对它是什么样的,视觉模型是否可以理解到这个世界真实会发生的物理规律,这是第一层。

第二层是在理解了之后,它是否可以对未来还未发生的事情进行一个模拟,这个更多是生成方面。比如说我给它一张我手拿着杯子的照片,然后跟它说请你现在模拟手松开杯子掉下,这个会发生什么,它是否能够精准的理解。所以我们会觉得对于这个世界模型来说,对这个世界客观规律,对物理规律,对所有视觉的信息的一个符合物理规律的理解和生成,是一枚硬币的正反面。当你做到一个世界模型的时候,它就可以做到同时对我们现在的物理世界的精准理解和精准的生成和模拟。

然后这个应用到最终 AGI 上,如果要处理任何视觉相关的 task,比如说如果我们未来想象一个机器人,它要用手拿起一个杯子,然后把它递到你面前,让你喝这杯水的时候,那么它就必须要同时具有理解和去模拟整个过程的这样一个能力。


? Ronghui

那你们觉得它这个事情给你们这个整个的领域带来什么样子的启发或者是影响?


?? Barkley

关于世界模型这个概念,我们觉得启发和影响更多的是我们会不仅局限于说只是生成这个视频,包括我们会觉得说所有多模态的信息都应该成为这个模型的输入和输出。所以我们最终的目标可能觉得要实现这一个世界模型,要实现这个视觉的 AGI,可能更多的是一个 anything to anything 的模型。

也就是这个视频、图片、声音,包括各种人说话的声音,包括音效,包括这个世界的一些 common knowledge,know how。比如说我们作为人是知道说我们怎么把地上一个碎了的东西捡起来的,那这些也是最终这个世界模型可能所需要知道的信息。这些信息可能最终汇总到一起,它能够做到一个多模态的输入和多模态的输出。这是我们觉得说当我们从最终的 End Goal 去想象现在需要的模型的能力的时候,这是我们现在从研究侧需要去做的事情。


? Ronghui

我能不能理解它其实是把这个难度提高了很多?


?? Barkley

是,我觉得也把它所需要的,不管是从数据的层面上,还是从研究层面上需要做的事情都提升了一个量级。就不仅是只是 focus 在视频的输入和输出这样的一个单一的模态上。


? Ronghui

对,因为它把信息的维度提高了非常多。


?? Barkley

是的,甚至最终可能需要跟语言模型有某种形式上的结合。其实现在的那个视觉理解模型很多依赖于一个基础的语言模型来作为它理解这样一个浓缩信息的途径。


? Ronghui

李飞飞做的这个方向上,目前除了她们还有谁?


?? Barkley

我觉得她们采取的是一个更加往 3D 方向的拓展,所以她们选择这个路径可能只是路径中的一条。

因为 Luma 之前我们是一个做 3D 重建和 3D 生成的。其实 World Labs 在做的一些方向上面,跟我们是之前的工作是有很多相似性的。但是我们后来之所以选择视频这个渠道,也是觉得说通过对视频的理解,通过海量的 scale up 数据的方式,或许我们不一定需要一定要通过 3D 来理解这个世界的物理规律,所以我觉得这可能是你说对于我们跟 World Lab,尽管我们都是向着世界模型的努力,但是在这个路径上可能不同的选择。

然后像 DeepMind 的话,我觉得他们的世界模型可能也更多是从视频生成的领域,就像他们在去年发布的 Genie 2,就是一个能够模拟各种游戏中,你可以进行一个 360 度的不同视角的转换,然后可以看到这个游戏实时生成的这个场景,但那个更多也是基于视频生成的路径,而不是 3D 重建的路径。


? Ronghui

你提到这个,我也想到你们之前是不是放弃了 3D 的这条路线?


?? Barkley

对,也说不上放弃了。我们觉得说这个路径的选择上可能会有一些我们觉得循序渐进的这个阶段。我们会觉得现在还不是去 scale up,或者去能够去大规模的做 3D 的这个时候。

工程与管理能力的关键作用

? Koji

我们的第十个问题是,上次我们和 Barkley 聊天的时候,你有提到一个观点,认为现在要继续突破,很可能一个公司的工程与管理的能力,它能带来的价值是大于算法创新的价值的

这个你可以展开再讲一讲吗?


?? Barkley

我觉得这个更多是在数据上去做这个工程和管理,当然因为我具体更多的也在数据和评测的方面,所以我对模型测的一些工程的问题可能不是那么的熟悉。

但比如说在数据上,我们很多时候会发现,如果你有一套能够快速的去 inject 和 output 数据的方式,这个对模型的训练速度会有极大的提升。因为最终我们按照 scaling law 的理解,这个模型它看过的数据越多,它能够理解、它能够生成的事情也可能就越广。

那这个时候并不是说在 research 上面能有什么架构上的突破,而是说我怎么能够快速的让模型去理解这些视频的数据。所有的视频可能比如说都要经过一定的压缩,但是我如何在压缩的同时能够保证它的信息尽可能的被保留。这就是一个更多工程上的问题,而不是一个纯研究上的问题。

然后包括说数据的 pipline 应该是什么样的,这个也更多是一个公司在管理上,我们怎么决定去运行这样一个从数据的采集到去标注,到最终能够切分到给模型能够使用的片段。这让我的感觉整个流水线好像一个工业厨房。如果说这个数据是菜的话,你就要有一个完整的流水线,一个人负责切菜,一个人负责洗菜,一个人把这个菜分门别类的分好。然后最终决定说这些菜要切成什么样的段,然后投入到这个锅里按什么样的比例翻炒。

整个其实并没有什么研究上的创新,但是它是一个在工程和管理上能够做到更有效率,就会对这个模型的能力有很大提升的一些 effort。


? Koji

我们的第 11 个问题聊一聊算法上的突破。关于算法上的突破,有看到最近有哪些公司在做新的有意义的尝试吗?


?? Barkley

我感觉这个问题可能我回答不是特别的专业,因为我更多是从一个 PM 的视角来看。

比如说对于 Sora 去年的发布,大家都会知道说证明了说 DIT 在大规模的数据的 scale 上面是可行的。可能在 DIT 的基础上,大家又会对 DIT 这个架构本身有一些不同程度的修改。然后这些可能最终会在不同的公司的模型上有一些体现。

然后除此以外我觉得就是有一些功能点,比如说如何做一些视频的编辑,甚至是图片的编辑。在这方面有一些新的在原有的算法的基础上,可能演化出来的一些新的方法,我感觉这个模式是在 research、在学界可能提出了一些有意思的猜测。

我们作为有能力去训练一个更大模型的公司、start up 会去 scale up 数据,然后去探索在一个更大的场景下能否能够得到广泛的应用,然后最终决定说这个事情是否是一个有意义的尝试。我觉得更多可能偏向于这类的把一些新颖的想法,一些小小的创新点,通过数据 scale up,最终应用到产品里面的一些 effort。


? Ronghui

你刚刚才说到这个工程和管理能力的贡献的重要性。我刚才想到觉得这个挑战其实还是在于以前这个事儿没有人做过吗?


?? Barkley

是的。


? Ronghui

它没有参考样本。那你们有没有从你自己个人感受特别强烈的一些比较有价值的 take away,可以给其他同行们的?

或者说以你对你们公司的了解,你了解的其他的公司在做这种一个没有参考范本的一件事儿,那么公司会创造一个什么样子的氛围,或者是说什么样子的激励氛围来推动它更有效率?


?? Barkley

我觉得这个可能更多是在这样一些问题上大胆的去尝试,其实就是大力出奇迹(笑)。

我们不管怎么样,反正没有一个标准答案,但我们就先去试,就包括比如说在评测上没有一套统一的评测标准。那我们可能包括对于这个第三方的评测人员来说,他们也没经过这样的训练,他们不知道说应该怎么样去 evaluate。比如说对于一个视频它美感是什么样的?那我们就制定不同的一些样例和标准,如果它包含了这些的话,那可能我们会认为说它更有美感一些,或者在美感上面会更低一些。

我们去看这最终是否 align 我们的 expectation,我们会先大规模去尝试各种不同的标准给到这些标注人员,看看哪些最终是更符合我们自己看下来的这个预期,包括 community 对它的预期的。

包括这些评测我们会在之后会有很多的这种去 pass reference 的这些方式。但这些很多也都是一开始我们去跟 creator community 交流的时候,然后他们说我们评测出来以后,我们看这些 sample 的感觉是什么样的。然后我们会根据他们的这些 feedback 有不断的去调整我们这样的标准,但我觉得很多就是一个大胆趋势,然后 try an error 的过程。


? Ronghui

听起来就是一个要造一个火车,现在那个火车站都没有,就从火车站开始自造的感觉(笑)。


?? Barkley

就好比画一匹马,然后不管你画出来的是什么样,他只要能跑就可以。所以它是否是一个最科学的身体的构造,这个可能对我们这个阶段来说不重要。


? Ronghui

那你觉得类比一下其他的 peers 们在也是在做类似的事儿吗?也需要做类似的事儿对吗?


?? Barkley

我感觉大家都在摸着石头过河,以及我觉得 in general,这也是一个对于一个新的领域,对于创业公司来说的一个特点。甚至可能反馈到我们的招人的标准上面。

我们招人的标准一向就是,「这是一个从来没解决过的问题,你要怎么去做?」我们会像我们 CEO 一样会经常问 candidate 这样一个问题。


? Koji

这个优秀的答案应该是什么?


?? Barkley

那就要看具体这个事情是什么样的了,然后看大家的思路可能会是什么。

AI 视频的应用与未来趋势

? Koji

我们前面聊了蛮多这个行业,然后各种技术突破,那我们接下来聊一聊产品,然后争取聊一聊八卦轻松一点(笑)。

我们第 12 个问题想问一下 Barkley,因为你也是产品经理,你应该也很关注各种各样的应用。所以在过去的这几个月,你有看到哪一个或者哪几个让你觉得眼前一亮,印象深刻的的 AI 领域的视频应用?


?? Barkley

关于 AI 视频应用中令人印象深刻的案例,我想到两个特别的例子。不一定是一个具体的应用或者产品,但我可能说一些我看到的比较 impressive 的 use case。

首先是 Luma 发布第一代视频模型时出现的应用。最初人们只是上传两个人的照片尝试让他们拥抱,后来演变成将已故亲人的老照片与现代照片结合。比如说一个爷爷跟一个孙女的照片,首先他们会左右排列,通过提示词「let them hug」创造出跨越时空的拥抱画面:「会出现一个老照片跟一个现代的照片,然后两个完美的融合,然后抱在一起的这个场景。」这个是我当时觉得很让我感动,很人性化的一个应用。感觉能够重新跟逝去的亲人产生这样的连接。

除此以外的就是一些比较有意思的视频应用,包括去年也有一些是会看到不同的东西的 transformation。去年有一个 trend,年底的时候叫 apple dog,是一个狗叼着一个苹果,然后会看到这个苹果,这个狗叼着苹果突然一下消失了,之后会出现各种各样有意思的,也就是变身以后的场景,我觉得这个也挺好玩。


? Koji

那我们的第 13 个问题,我们来预测一下,2025 年视频模型应该还会不断的革新。

你认为这些革新,这些突破有可能会解锁哪些新的创业的机会,或者做应用的新的场景呢?


?? Barkley

比如我们觉得在 2025 年,视频模型会能够做到对角色和至少人物的一致性很好的保持。

比如说如果我们之前要想生成一个连续的故事的话,我可能要花很大的精力让模型去学会,或者说我要不断的通过抽卡让这个模型能够稳定的生成一些同一个角色相关的视频的场景。

那么在我目前看到的 research 的一些突破上,我觉得这个 character consistency 的问题在 2025 年能够得到极大的提升。

这时候你就可以用它真正去很简单的拍一些能够有连续上下剧情的影视,或者是一些比如说把像这种文字的一些小说的场景进行改编。比如很多二创,它有可能可以成为一个新的一个视频的模式,然后在网络上传播。

另一个我自己比较感兴趣的方向是实时的视频生成。当然这个不一定能够在 25 年能够完全的实现,但就是如果我们能够把视频生成的延时降到很低的话,那么有可能就是说我能够在看一个内容的同时,能够实时的对这个视频进行修改。

比如说我不喜欢哈利波特的某一个结局,我觉得说我想看到它不一样的一个可能的发生的场景。那么我在看哈利波特的时候,可能我就跟这个视频模型对话说,我希望看到这个结局是什么样的,或者在这个场景里我希望看到的、发生的一个另一种可能是什么。然后这个模型它能够立即做出反应,去生成一个不同的结局。

像这种视频实时视频的生成能够带来的应用场景,我会更期待它能够成为一种新的内容消费的形式。

在之后可能生产者和消费者的这个边界会变得模糊,所有人都可以做这个视频的 edit,然后所有的这些视频的内容也都是自定义化 towards 他们的。

这些是我觉得可以诞生一些新的应用场景和甚至是新的一个 entertainment 机会的可能。毕竟很多依赖于 research 的进展,所以也不知道会不会在 2025 年实现。


? Ronghui

那有没有那种短期内你觉得肯定会实现的,会马上发生的?


?? Barkley

我觉得 character consistency 是短期内应该马上会实现的。因为可以看到包括我们在内很多的 AI 公司都已经在模型层取得了一些很好的效果。

视频行业的有趣八卦

? Koji

然后我们说到八卦,知道每家公司最喜欢聊八卦的时候,就是大家一起吃午饭的时候。

我比较好奇你们最近吃午饭的时候和同事们都在聊哪些事儿,聊到了哪些业内的新闻动态,你觉得印象深刻,也可以拿来和大家聊一聊,分享一下的?


?? Barkley

我们其实会聊到一些其他公司内的八卦,包括我们不断的在全球招募这样的 AI 的人才。

有时候也会看到他们在过去的一些公司的体验。我们有时候会八卦,作为一个创业公司,会八卦这些大厂,他们的管理和这个 AI 的研究到底是什么样的,因为我们会觉得很多大厂的研究是一个非常纠结的状态

受到这样的一个不同层级的管理,不一定是 research 做最终决策的这样一个体系下,但是 researcher 又需要保持他们一定的自主独立性,就会发现有时候有的一些大厂内部可能会出现的政治斗争。

我们会把这个当八卦在餐桌上面聊。包括我们会觉得说,为什么在这些大厂,可能很多 researcher 不一定觉得他们能够做出最好的成绩,这也是我们有很多从比如说从 Google DeepMind 过来的 researcher,从 Meta 过来的 researcher,他们会给到我们的一些反馈。

就是在很多时候,当一个不是 researcher 的管理者去权衡说我应该去做前沿的 AI research,还是我应该保持我的这个组能够有持续的产出的时候,其实大部分的管理者都可能会选择后者,因为后者是一个更稳妥的方式。

但这个 incentive structure 设计本质是因为 AI research 这个事的不确定性太高了。如果在大厂的这种评价体系下,如果做不出成绩,那很有可能就代表就是没有这个升值的空间,也没有这个组能够存活下来的机会。所以我觉得有时候这些问题还会阻碍着创新。我们最近在午餐的时候经常会聊到这个问题,所以觉得还挺有意思。


? Ronghui

那你们公司对 DeepSeek 有什么讨论吗?然后你作为一个中国人,应该也有可能是你们其他的非中国人同事的一个询问的对象。


?? Barkley

对,我记得 DeepSeek 出来之后,CEO 会问我一个问题,就是说中国的创新和经济的环境到底是怎么样的?因为他会听到很矛盾的信息,一方面觉得说中国好像大部分公司又不在搞大模型的技术研究,然后都会 focus 在应用层。但是另一方面也有 DeepSeek 这样厉害的公司出来。

我觉得做一个在这边的 PM,因为还是会跟国内有很多的交流,所以我会感觉 DeepSeek 出来以后,其实对整个硅谷这边是有一点 shock 的这个感觉。对一个中国公司能够在一个纯底层的模型的技术上能够取得这样的一个突破,能够有一些很好的效果,包括在最终的这个应用层上增长的速度也是特别快的。我觉得这是可能过去没有一个中国公司能够在全球市场达到的。所以对于我们来说也会更加 focus on 对于中国的人才的招募。

对于像 DeepSeek 这样的公司,很多都是中国本土的人才。我们觉得说可能对于这些人才,我们也会想说如何吸引他们来,跟我们更多的去创造这些 AGI 的可能性。另一方面就觉得在我感知到的中国的氛围,可能就是更多对中国的 AI 领域的一个强心剂。如果你相信坚持相信这个长期主义,最终如果你足够相信这个愿景的话,最终是会实现的。

我其实觉得我们在硅谷这边还是能感觉到很多这样的氛围的。我觉得可能对于我们来说也是这样一个 reaffirmation (再确认),也就是继续去追求视频领域的 AGI,继续去 scale up 这个模型,继续去做这个基础的研究。


? Ronghui

我们下一个问题,其实你刚刚说到这个,你们是把追求 AGI 作为公司的目标。然后 Runway 的 CEO 之前还有一篇比较有名的一个文章 / 讲话。他说他们不再用 AI 公司来看自己

他整篇其实在强调的是要技术、要找到好的应用,我觉得你们应该是两个不同的发展方向。之前我们聊天的时候也聊到说两个 CEO 在推特上交锋过。


?? Barkley

对。那个是 Cristóbal,Runway 的 CEO 他在 Twitter 上 pin 到首页的一段话。

大概的意思就是说,Runway 不是一个 AI 公司,Runway 是一个 media entertainment 公司。他说现在谁还标榜自己是 AI 公司的,那这个时代已经终结了,你们快点醒一醒。AI 之后会变成一个基础的,像水电一样的东西。那么你今天把自己叫 AI 公司,实际上你是没有意义的。因为它最终会变成一个所有人都用到的东西。所以确实要去想这个应用场景是什么。

然后他发了这篇以后,我们 CEO 就在推特上面转发了,quote 了一句说,「任何误打误撞进入 AI,但是又不真正懂 AI 的人才会这么说」。然后配了一个我们 Ray2 生成的一个青蛙吐舌头的一个视频。

我觉得其实两个都没有严格意义上的对错,其实它都是硬币的两个正反面。当然也可能是一个时间上的问题。从我们 CEO 的角度,包括我们公司更多相信的是 AI 在目前这个阶段不会成为像水电这样的基础的东西。也就是AI 本身的前沿的研究会带来新的范式,会带来新的应用场景和突破口。

这也是我们持续在行业内观察到说,任何一个模型的提升,其实都可以带来应用场景上很大的拓宽。

所以我们还是会更加坚信说,继续 focus 在底层模型的研究,然后这些应用场景会自然的来,但也并不是说我们不去 focus 在应用场景,不去听我们这个用户真正想要什么。但我觉得相对来讲,我觉得可能 Runway 会更多的关注在 media entertainment 的行业。特别是他们跟很多的电影 studio 合作,估计他们会很多想去听这些 studio 的 feedback,看他们想要什么样的应用场景,然后去做什么样的模型的提升,我觉得可能也是一个路径的选择,也不一定在目前这个阶段能看出这个绝对的对错。


? Ronghui

都是不同公司的策略跟选择的不一样,所以会有观点想法上的不一样。但是挺有意思的。


?? Barkley

对,我觉得很感触的点就是有一句经常说的话 「everything in the bay area happens on Twitter」

所有的这些公司的 CEO 会直接在推特上面对骂,非常有个性,让我觉得也是我在硅谷这边吃瓜觉得很有意思的一个点。

AI 时代的产品经理角色转变

? Koji

其实之前十字路口有一期非常受欢迎的内容,就是 AI 时代的产品经理指南。然后我们在那一期里面聊了好多问题。比如说产品经理要怎么重新定义自己,产品经理要如何又去学习新的技能,才能在一个 AI 产品里面发挥出足够大的价值。

所以从你自己的切身的经历来看,也是我们的第 16 个问题。你认为 PM 这个岗位在 AI 公司有哪些变化?你又是怎么从之前在 TikTok 做 AI 特效的产品经理,然后转到在 Luma AI 做一个模型的这个产品经理。这个中间的一些故事,一些心得可不可以分享一下?


?? Barkley

这两年我的心态有很大变化,源于对模型层创业公司与产品驱动大厂不同角色认知的体会。

在字节担任产品经理时,我拥有很强的主导权——定义特效实现方式,参与研究讨论,提出需求,然后研究团队会评估可行性。我们按预期时间线将特效上线,尽管这些项目可能涉及 AI 且存在不确定性。

而在 Luma 担任模型层 PM 时,我发现研究实验室主要由研究人员主导方向,我更多是提供辅助。

最初这种定位落差让我不适应,逐渐意识到这可能是研究领域更健康的模式,因为研究本身就充满不确定性。

AI 时代与互联网时代的关键区别是:过去产品经理可以明确定义需求、功能、目标受众和数据指标,因为工程师能确保功能实现。而现在一切处于混沌状态——研究中十个想法可能九个会失败,只有一个成功。在这种情况下,产品经理更多是帮助研究人员确定初始尝试的方向,而非要求所有想法都必须成功实现并上线,那样不切实际。

负责数据和模型评测时,我扮演连接研究人员、终端消费者和创作者群体的角色。模型评测结果会反馈给研究人员,指出不足之处,探讨如何通过数据采集和标注补齐能力。但具体执行方式和方向最终由研究人员决定。我确实没有能力主导模型迭代方向,但会尽可能提供用户一手信息,帮助他们做出更好决策。


? Ronghui

我想补充的问题是,第一个是因为 Barkley 比较年轻,那你有观察比如说 senior 就是 level 高一些的 PM 他们的工作是什么?

第二个是你刚才提到你所做的事情的这些特性,有没有会因为你所在的公司,它的 research 的重要性非常的高,所以它会有一点特殊性?你有没有跟其他的其他公司的 PM 交流他们做的事情的,比如说更偏向哪个方向?


?? Barkley

对于第一个问题,我觉得是因为我们公司只有我一个 PM,但我认为即使对于更资深的 PM,整个 AI 从落地到产品上的发展实际上才刚刚从 ChatGPT 开始。这个行业至今可能只有两年半的时间,所有 PM 都需要重新适应这个系统,了解如何在此基础上构建应用场景,或者帮助模型进行更好的迭代和更深入的研究。

对于第二个问题,我实际上更多与模型层的 PM 有交流。确实感觉到在 Sora 和 Veo 等项目中,我的同行与我做着类似的工作,都专注于数据、评估等对模型核心的任务,这些任务需要对用户有洞察和理解。

不过我认为模型层公司与应用层公司的 PM 还是有很大差别。例如,我了解到其他应用层公司如字节即梦的 PM,他们更多是探索模型的应用方式,不管使用哪家的模型,他们关注如何找到最佳应用场景,如何通过功能形式和交互方式让用户更简单地接受模型能力。其他应用层公司则根据各自不同场景寻找特定模型的最佳应用场景、交互和应用方式。

所以我觉得模型层的 PM 与应用层的 PM 确实存在很大差别。


? Ronghui

第 17 个问题,在你们公司或者是你观察到其他的公司对在招聘时候的要求有哪些特别的地方,或者说跟以前相比有什么不一样的地方?


?? Barkley

我认为基于目前我们在招聘 PM 岗位的需求,或者作为一个模型层公司的要求来看,我们更希望这个 PM 有过在模型层做数据或评测的相关经验。这在目前确实还是一个相对较小的群体。

即使应聘者没有这样的经验,我们会希望他能够快速上手,能够找出一个之前从未被定义为标准的方法,特别是在创业公司环境中。因为没有人能够指导你,大家都期望你能够适应这个职位并立即开始工作。

所以我认为能够在没有客观标准的情况下快速建立评测标准,可能是我们在招聘 PM 方面与过去不同的地方。我们不太关注过去的具体经验,除非是特别相关的经验,但我们特别关注的是能否快速上手完成任务。


? Ronghui

我们之前跟李乐丁老师聊,他说这个 PM 其实在现在这个时代是前所未有的重要。

另外是我自己其实对硅谷的 PM 的很多信息,其实是因为看有一个人的 newsletter。他因为自己以前就是一个 PM,所以他会非常专注从这个角度去聊了很多东西。我其实比较好奇,以前会有这么多非常强调 PM 的,不管是社区还是内容?


?? Barkley

我认为在硅谷确实没有像国内那样强调 PM 以及 PM 社区。PM 这个角色更多是在移动互联网出现之后才变得突出,而移动互联网在中国的发展比美国更加蓬勃。

在美国,很多公司仍然偏向工程师驱动 (engineer driven),现在则逐渐变成更加研究驱动 (research driven),相对较少出现完全由 PM 驱动的公司。像字节、腾讯的管理方式在硅谷算是比较特殊的一类公司。

关于 PM 的重要性,我认为在 AI 发展如此迅速的情况下,很难确切定义 PM 到底是一个什么样的职位。

但可能最关键的一点是,最优秀的 PM 能够快速发现事情的本质,然后找到解决问题的方法。

具备这种能力的人,无论是做 PM、Operations 还是 Sales,都可能有很好的发展前景。


? Ronghui

第 18 个问题是,你在一个非常快速发展的行业里面,你有做哪些事情来让自己保持学习,去更了解这个行业的新的动态?


?? Barkley

我更多时候会去跟我们的研究人员交流,他们有时会推荐一些他们认为有趣的论文给我阅读。在这个行业里,另一个重要方面是尝试各种各样的产品。

作为负责模型评测的人,我会高频使用其他视频模型产品以及我们自己的产品。此外,在代理(agent) 和 LLM 方面的产品,当我看到新产品时也会尝试使用。例如,最近我比较多地在尝试使用windsurf 编写一些可能对自己感兴趣的、能够帮助工作更高效的小程序。

我认为能够体验这些产品,同时理解支撑它们的模型、这些模型的原理以及它们可能的边界,这对我作为一个模型层的 PM 来说是两种非常有用的学习方式。


? Ronghui

第 19 个问题,你有观察你周围的人,他们有做哪些学习是有效的?

比如说你刚刚提到大家的角色,其实有一点感觉像在比较混杂的一个状态里,其实我还挺同意的,感觉有一种在这个时代,得逼着什么都要学的感觉,你身边是不是也是这样?

比如说你的同事或者是你的朋友们,他们其实也是一个类似的状态,然后大家有哪些像你刚刚提到这个经常跟 research 聊天,去读一读他们推荐的 paper,其实我觉得这是找到一个很有价值的信息源,通过他们的推荐去获得一些高价值信息的一个学习的方法吗?

你有看到比如说其他人有什么样比较有效的、有价值的方法吗?


?? Barkley

我之前有一个也在 TikTok 担任 PM 的朋友,他梳理 AI 相关论文和应用信息的方式非常好。他会使用线上画图的软件,将所有他体验过的产品和阅读过的论文放在上面,尝试寻找它们之间的关联,构建一个较大的思维地图。

很多时候,这也是我之前与公司研究人员交流的感受。他们做研究的过程,实际上就是在不同方法、不同模型之间寻找关联性。例如,我们的研究人员有时会阅读语言模型的论文,发现语言模型的某些方法可能对我们有启发,然后尝试将其应用到视频模型中,看这种方法是否有效。

所以我特别佩服我那位朋友的方式,他能够在这些论文和产品之间建立连接,找到可能在不同领域中相似的不变主题。这些最终会启发我们可能产生什么新产品,或者可能有什么新的应用场景。我认为这是一种相当不错的方法。


? Ronghui

触类旁通。


?? Barkley

是的,AI 特别是 Transformer 架构确实让人产生这样的感觉—世界上所有事物之间实际上存在某种关联性。

我们用人类大脑去排列组合和处理这些关联是非常低效的,而 AI 能够在大量数据中发现这些事物之间隐藏的联系,从而涌现出更强大的智能。


? Koji

我们第 20 个问题, Barkley 在硅谷做产品经理。

我们比较想听听你分享的作为在硅谷的中国人,你觉得 AI 时代有带来不一样的或者说更好的,那也可能是更差的,有什么不一样的新的职业机会吗?你会有什么建议?

大家要怎么去抓住这样的机会?


?? Barkley

我认为首先在中国的团队以及在美国的中国创始人团队确实拥有一些独特优势。

比如我们对中美两国的理解,包括对科技市场的理解。在消费者端,美国很少有特别理解消费者心理的产品经理。过去在美国真正火爆的 C 端产品可能是 Snapchat,之后就是 TikTok,而 TikTok 是源自中国团队创造的产品。

在消费端的理解以及对 AI 硬件的理解方面,中国创业者在这些领域有很多独特优势。很多国内出海的产品在美国取得了成功,这也是因为我们对中美两边市场的理解和对 C 端生态的把握。我认为这方面会有很多机会,未来应用层可能会诞生更多中国创始人的团队。

另一方面,在模型层面,中国的研究能力确实很强,这种钻研和吃苦耐劳的品质是中华民族的传统美德。在硅谷这边也能看到很多优秀 AI 公司的核心研究人员实际上都是华人,可能有不同的求学背景,有在中国读 PhD 的,也有在美国读 PhD 的。这些对中国人的机会会一直存在。

虽然地缘政治会有一定影响,但我更相信 AI 的发展最终应该是全球更多流通,在一个介于合作和竞争之间的状态下相互改进。我们也会从中国的模型和产品中学到很多,然后思考我们可以做出什么样的改进。

最后我想介绍一下,Luma AI 现在正在招募全球的视觉人才,加入我们一起研究视觉理解和视觉生成,尝试通过视觉领域实现视觉模型和 AGI 的愿景。我们特别希望能够招募更多中国人才,可以开始以远程方式工作,我们也可以帮助解决美国的工作签证,然后加入我们湾区的办公室。如果有兴趣的话,可以联系我或者去我们的招聘官网投递简历。


? Koji

好的,谢谢 Barkley。如果想联系 Barkley 的朋友,可以到我们播客的评论区。我们会在发布之后请 Barkley 来留一个联系方式。好,我们今天就先聊到这里了,谢谢。希望有机会再来十字路口。


?? Barkley

好的,谢谢你们。


欢迎订阅「十字路口」播客

? 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。AI 正在给各行各业带来改变,我们寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱新变化,新的可能性。


??  主播 Koji:新世相/躺岛的联合创始人。我相信科技尤其是 AI 会在未来彻底改变社会,赋能人类,欢迎大家找我聊天,碰撞想法,链接下一个可能性。Koji 的即刻[2]Koji 的网站[3]


?? 主播 Ronghui:供职于科技 VC,前《第一财经周刊》驻硅谷记者,Ronghui 的即刻[4]


欢迎加入「十字路口」的会员群


☀️ 第一手的 AI 资讯与洞察

?? 鼓励大家谈恋爱/交朋友/寻找未来的同路人

? 添加小助理微信入群:Rwkfbcianvd ,或扫下方二维码


参考资料

[1]

Luma.ai: http://luma.ai/

[2]

Koji 的即刻: https://okjk.co/0JSUes

[3]

Koji 的网站: https://koji.super.site/

[4]

Ronghui 的即刻: https://okjk.co/0cbnYV


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视频模型 Sora Luma AI 世界模型 AGI
相关文章