原创 十字路口 2025-04-12 22:46 上海
周昌印的技术与商业融合之旅
前不久我们和 Luma.ai[1] 团队中的唯一一位产品经理 Barkley 用 20 个问题来梳理了 AI 视频模型在过去这一年的发展。
这期播客,我们邀请一键魔改短视频的工具 Vozo 的创始人周昌印和我们分享开发 Vozo 的故事:Vozo 可以为视频重新配音,做视频翻译和剪辑,上线的时候连续三天登上 Product Hunt 榜首,6 个月实现 100 万美元 ARR。
另外,在这次的聊天中,我们也以 Vozo 为线索,和周昌印详细聊了聊他从前在著名的 GoogleX 实验室的工作经历,在硅谷的第一次创业以及,如何从「接地气」的直播机开始自己回国创业的旅程。
我们本以为,一个人要丢掉过去的工作方式重新开始,是一件需要鼓足勇气的事情,没想到昌印告诉我们,相比沉默成本,他更在意的是自己是不是在做一件没有人做过的事情。
他也和我们分享他观察过去周围那些非常聪明的人的工作习惯,希望会让大家有所收获。
微信收听播客:
来自十字路口Crossing音频:成为一个「接地气」的AI创业者分几步?从Google X研究员到做出6
小宇宙收听播客:
Vozo AI:视频翻译与魔改的创新之旅
🚥 Ronghui
上一期我们盘点了 Sora 发布以来视频模型的进展。今天我们来和 AI 视频工具 Vozo[2] 的创始人周昌印来聊一聊他非常具体的创业故事和个人的经历。
Vozo 被形容为「用 AI 一键魔改短视频的工具」,可以为视频重新配音,做视频翻译和重剪。在上线的时候连续三天登上 Product Hunt 的榜首,也在六个月做到了 100 万的 ARR。据我们所知 Vozo 的发展经历也有一些很有意思的关键节点以及昌印对应的一些思考。
今天我们就请昌印来跟我们具体的聊一聊这些故事。那昌印先跟大家打个招呼,介绍一下自己,也介绍一下 Vozo。
👦🏻 周昌印
谢谢 Ronghui,我是周昌印,大家可以叫我长鹰,我是 Vozo AI 的创始人和 CEO。
🚥 Ronghui
可以详细跟我们介绍一下 Vozo 具体是做什么,这些功能是怎么样一步一步被开发出来的吗?
AI 视频工具还挺多的,为什么选了这个具体的方向?
👦🏻 周昌印
Vozo 在我们公司内部经历了漫长的「孕育」过程。2021 年,团队从美国回到国内,决定专注于「视频表达自由」这一理念。我们认为这是一项非常值得做的事情。
从 2021 年开始,我们陆续推出了几款产品,有成功的,也有不尽如人意的。从 2022 年,我们开始进行生成式 AI 的研发探索。这是一个双管齐下的过程——一方面从用户需求出发,另一方面从技术研发着手。到 2023 年,我们有了一些想法,找到了研发和需求碰撞的点,开始内部孵化并筛选了几个想法。2024 年,当我们自己对产品比较满意的时候,正式推出了 Vozo。
Vozo 的定位经历了几次演变,但核心始终是帮助普通人,而非专业视频剪辑师。这里的「普通人」覆盖面很广,包括教师、项目经理、营销经理等。虽然他们偶尔需要制作视频,但专业能力有限或需要外包。我们的愿景是让所有普通人都能通过视频进行表达。这其实是一个非常大的事情,我们最初的生成式 AI 模型相当激进,类似于现在许多大家看到的生成式视觉大模型。
但是在 2023 年底,我们进行了转型,希望聚焦于真实场景,切实解决用户问题。所以我们 2024 年 7 月上线、第一次 Product Hunt 打榜的时候,我们将功能定义为 「Vozo Rewrite」。我们适当降低了难度,不是凭空生成视频,而是在已有视频基础上改变故事。
这种功能适用于多种场景。一种是利用现有优质视频素材,如电影片段,来讲述你的品牌故事或观点。另一种是将现有视频,比如感恩节推广,轻松转换为圣诞节推广。
我觉得 Vozo Rewrite 为视频剪辑带来了挺大的改变。传统剪辑需要裁剪和音视频处理,而通过 Vozo Rewrite,只需简单 Prompt,如 「请将视频转为西班牙语」或「让视频更激动人心 / 更有趣」,就能实现视频转换。这是我们首次上线的核心功能。
经过半年多的演进,Vozo 的功能范围更加广泛。值得一提的是,Vozo 于 7 月 20 日首次发布后,我们进行了多次迭代。到 11 月,产品迎来重大转变,我们推出了新功能 「Vozo Translate」。
Translate 实际上是 Rewrite 的延伸,因为我们发现大量用户使用 Rewrite 进行翻译,所以我们在内部进行了长期迭代,邀请使用翻译的用户试用并提供反馈,逐步完善了翻译功能。
目前,我们大多数用户的续费率非常高。从 2024 年 7 月算起,虽然我们起步相对较晚,但到 2025 年 1-2 月,产品形态已经相当成熟。这就是 Vozo——我们公司最新产品的发展历程。
从创意到市场:Vozo 的功能迭代与商业化
🚥 Koji
我首次接触 Vozo 是在十字路口的会员群里。当时,Vanessa (字节的一位PM,也曾上过十字路口播客《AI 产品经理指南》期)向大家推荐了这款产品。
她推荐的内容质量一贯很高,所以我对此格外关注。当时印象深刻的是多个使用 Vozo 生成的短视频同时刷屏,这些视频巧妙地将经典电影画面改编成搞笑桥段。画面保持不变,但主角的口型和语气完全变了。
我记得其中有小李子(莱昂纳多·迪卡普里奥)在《华尔街之狼》中的经典片段。他依然保持着原片中慷慨激昂的表现方式,但内容却变成了日常琐事,这种强烈的反差令人印象深刻。除此之外,《泰坦尼克号》、《哈利波特》等各种经典电影画面都被创意性地 「魔改」,让人耳目一新 ——这应该是 Vozo 的第一波出圈。
到了 11 月,Vozo 再次登上热门榜单,甚至在 Product Hunt 上成为月榜第一。这次是因为新推出了翻译功能,它能将视频内容从一种语言完美转换为另一种语言,效果之出色赢得了广泛好评。
除了这两个主要的产品高光时刻,昌印还有其他补充吗?
👦🏻 周昌印
目前「翻译」确实是我们用户最常用的功能。
正如前面提到,Translate 功能于 10 月份正式上线。在 11 月之后的 3 个月中,我们又陆续开发了两个新产品功能。
这三个功能都是慢慢延续出来的。我们最初开发了 Rewrite 功能,随后发现大部分用户将其用于翻译目的,因此我们决定深化 Translate 功能,这个过程耗费了相当长的时间。
在完善 Translation 功能后,我们注意到部分用户并不需要完整的翻译服务,他们只想使用我们的口型同步技术。基于这一需求,我们深化开发了 Lip Sync 功能,它现已成为我们的重要功能之一。
有趣的是,在推出 Lip Sync 后,一些用户提出了新需求——他们希望能对照片而非视频进行口型同步。最初我们对这个需求有所犹豫,认为市场上已有类似的 Photo Lip Sync 工具,但经过对各种现有工具的测试和分析,我们了解了用户对现有解决方案的不满之处。于是我们重新开发了 Photo Lip Sync 功能,并于 1 月左右推出。这一功能上线后用户增长迅速,也证明我们的效果确实令人满意。
简单的预告一下,3 月份我们会有更大的东西 release,但目前保密(笑)。
🚥 Koji
这个更大的东西会是像最初的 Rewrite 从视觉上给大家带来震撼,还是像 Translate 或 Lip Sync 从功能上做的比竞争对手都好?
👦🏻 周昌印
其实都有。更多的是基于现有需求的一个功能,但是我们做的比较不一样。
🚥 Koji
你是否认为 Vozo 如果一开始就主推翻译或唇形同步等功能,可能反而难以获得市场关注?
而选择推出一个前所未见的创新功能,恰恰激发了用户的好奇心,让短视频得以破圈传播,使 Vozo 成功进入更广泛的用户视野?
既然已经尝到了这种创新营销策略的甜头,未来你们是否会继续保持产品和营销层面的创新尝试?就像最初的 Rewrite 功能,以及现在的 Pika 每月推出的新特效一样。这是否代表了你们未来的路径选择?
👦🏻 周昌印
对,我觉得路径真的非常重要:
第一个功能是推什么以及大家对你的 first impression 是什么,是非常重要的。
毕竟我觉得在现在 GenAI 的时代,创新其实是最主要的推广手段。所以你肯定不要让别人觉得你是个「me too」,而且 「me too」 对内部团队也很难交代,对一个创新团队来说,很难一直靠做「me too」,因为团队都会没有士气。
当然了如果你的团队不是个创新团队,那无所谓了。你本来就是「me too」 团队,你就这么做。但是 「me too」 的团队,在我的 bias 看来,我觉得在现在的 AI 时代是不可能成功的。
如果是一个创新团队,你肯定要不断地去拥有新的创新东西并且去往外推。但是刚刚前面我讲的有一点点悖论,就是我们又要抓需求,又要有创新点,那就路径很重要。
创新品牌推出后再从 Rewrite 切回 Translate 领域,能够实现比传统翻译更优质的效果。翻译市场需求真实且广泛,我们的策略是先精细化运营,再逐步拓展业务范围。
这种路径对技术演进和市场开拓都相当有利。虽然并非所有商业模式都适用这种发展轨迹,但对 AI video 而言,我们有幸找到了这条持续扩圈的路径。
值得注意的是,市场上也有企业选择不同策略——潜心研发并且不公开任何发展路线,而后爆火,这类案例确实存在。我们则选择从用户需求出发,探索 AI video 的应用场景,这正是我们当前聚焦的方向。
🚥 Koji
当前 AI video 赛道涌现出多家创新公司,从 Pika 到 Luma,从 Heygen 到 Viggle、OpusClip 等。你对哪些公司特别欣赏或关注?
👦🏻 周昌印
我比较喜欢 Heygen,我觉得他们非常 focus 去做他们想做的事情。
创始人徐卓从「替代传统摄像」的愿景出发,自 2021 年便坚定推进这一方向。尽管过程中遇到诸多技术挑战,团队仍逐步突破困境。无论其迁往美国的决策如何评价,在产品打磨与技术迭代方面,Heygen 确实表现出色。
我对其他公司了解相对有限。例如做图像相关的 Dzine,是由我另一位朋友创立的,其产品品质同样也很棒。我个人偏好那些在产品体验上精益求精的团队,这方面 Dzine 与 Heygen 都表现突出。
在 Product Hunt 脱颖而红:冷启动策略
🚥 Koji
我知道 Vozo 其实一直是没有花营销预算,只是做了两次 Product Hunt 的打榜,就做到了今天 100 万美金的年收入。
你如何看待 Product Hunt 打榜的这种营销方式对你们的帮助究竟有多大?
👦🏻 周昌印
我觉得帮助还挺大的,得从两方面来看。
第一个是我非常喜欢 Product Hunt。其实我在 15 年的时候我就做过第一次 Product Hunt 打榜。那时候的氛围实际上跟现在不太一样。
但我觉得它核心的价值是当你去做 Product Hunt 打榜的时候,你真的会去想你是什么样的产品以及怎么样通过一句话可以说清楚你的产品。我觉得这个其实对产品的打磨是最有用的。所以我觉得 Product Hunt 最大的价值是在这个地方。
它给我们的价值是,我们比较简单的完成了冷启动。虽然带来的流量没有特别大,每天大概是 1000 左右,但是 1000 左右足够我们做产品的 PMF 的迭代,所以相当于是冷启动。通过一次跟两次的 Product Hunt 就完成了,我觉得这个其实是非常有价值的。
🚥 Koji
其实在 PH 上打榜有非常多的技巧,我自己在各种群里也看到天天有人在拉票。
你认为一款产品现在能冲到 PH 日榜第一,有多少是运营的成分,有多少是产品本身实力要做的特别好的成分?
👦🏻 周昌印
这正是我开始说的,现在与 2015 年相比有很大的差别,当时没有这种现象。
如今我认为在 Product Hunt 上获得高排名这件事,与产品本身的关系并不那么密切。
如果你懂运营并愿意投入资源推广,基本上都可以将产品推到前列。也许难以确保第一名,但进入前三应该不成问题。但我觉得这只是一个方面,就是你把排名做到第一或第二第三,并不意味着你在 Product Hunt 上真正成功了。
你的成功与否取决于这次 Product Hunt 活动最终对你产品的产品市场契合度 (PMF) 是否产生了实质性帮助。所以我并不惊讶有很多团队可能在排名上达到第一或第二,但最终产品可能并未成功落地。
因此,回到刚才的问题,在 Product Hunt 上获得高排名成功与否,主要是运营层面的事情。而在获得高排名之后,能否带来真正的商业价值,我认为这才是产品层面需要解决的问题。
🚥 Ronghui
除了 Product Hunt,你们有在其他的地方做这种露出吗?
👦🏻 周昌印
我们几乎没有过多做推广,虽然中间有一些机会可以去做,但我们相对比较克制。这主要是因为 Product Hunt 已经给了我们足够的流量,所以我们比较珍惜这半年的时间去专注产品本身。
另外一部分原因是,在初期流量进来之后,我们收到了很多用户反馈。我们认为在解决这些反馈问题之前,进一步推广意义并不大。这些反馈确实非常多,但我认为我们做对了几件事情:我们很早就启用了类似 Intercom 的客服系统,用户可以直接在网页上与我们交流。
我们的一些团队成员会一直在线回应,了解用户真正需要什么、不需要什么、哪些地方不满意。基于这些反馈,我们持续迭代产品,大概每周会发布一到两个版本,不断地改进它。
所以在那个阶段,我们没有太过关注推广的事情。这种做法不一定适合所有团队,有些团队可能会选择更早进行推广,从而获得更快的增长。但这只是我的观点:
推广早一个月或晚一个月其实影响不是那么大。最终,产品与市场的契合度 (PMF) 才是更重要的因素。
🚥 Ronghui
有什么时刻觉得 PMF 找到了吗?
👦🏻 周昌印
我认为这是一种感觉,就是如果要定量衡量的话,我们会关注两个关键指标:用户的续费满意度以及最终的绝对值,也就是我们的年度经常性收入 (ARR) 有多少。
我们当时的做法比较直接,也就是设定一个目标:想要先到达 100 万的 ARR 再说。幸运的是,即使没有额外推广,我们也刚好达到了这个目标。这可能有运气成分,但也和我们最初的判断基本吻合。
另一个关键指标是续费率,我认为这需要保持在合理水平。比如说,如果我们有 100 个付费用户,假设他们对产品满意,那么应该有 80 个人会选择留下来继续使用。当然,这是我个人的判断,因为我知道大约 20% 的用户可能会因为自身业务原因而停止使用产品。所以当续费率达到这个水平时,我认为我们的产品算是合格的。
这两个方面结合起来就成为了我们内部的目标。这种做法的好处是,有了明确的目标后,做事情会更有动力。每个阶段专注于一到两个目标,而不是同时做多件事,比如一边改进产品一边还要通过五个不同渠道推广。我们尽量把这些任务分开处理,更有针对性地推进。
技术困境与团队转型:寻找正确路径
🚥 Koji
前面提到,Vozo 在 2024 年 7 月才正式上线第一个主打 Rewrite 功能的版本 ——上传并「魔改」现有视频,一经推出就迅速走红。
👦🏻 周昌印
我认为双方因素都存在,但我们自身的原因可能占比更大一些。后来我们内部也做了一些复盘。
我们其实在 AI 视频这个赛道起步非常早,2021 年成立时就开始做这方面的工作,虽然那时可能更偏向传统的计算机视觉 (CV)。到了 2022 年,我们开始研究一些更深层次的技术。
2022 年时,我们比一般公司更早预见到了生成式 AI 的潜力。因此我们做了一件对早期公司来说非常少见的事情:与外部一位知名的、也是我以前的一位老师一起成立了联合实验室。我们投入了很大资源去做一些基础性研究和前沿探索,而且在那时我们几乎没有营收,这是相当大胆的决策。
这些研发工作到 2023 年初开始显现成果,特别是生成式视频模型开始涌现。那段时间非常令人兴奋,我们大约每两到三周就能迭代出一个新模型。但在那时我们走错了一步棋 - 我们同时在做两件事:一方面推广原有产品并追求营收;另一方面进行基础研发,认为这可能是未来的重要机会点。
当时我们有个看似不错的理论:从两个方向同时出发,一边做贴近市场的应用,另一边做高端前沿研究,希望有一天这两条路能够汇合。
但现在回头看,对初创公司而言,这其实是一个相当错误的想法。
到了 2023 年,我们陷入了一种尴尬状态:我们想做的产品功能无法被我们的基础模型所支持。因为基础研究是按照自己的路径推进的,虽然模型效果很有趣、很令人兴奋,但这些成果难以产品化,总是有各种各样的随机性和奇怪的问题。所以在 2023 年,我们基本上纠结了一整年 - 我们在研究方面很激进,在应用抓取方面也很积极,但这两条路径始终无法有效融合。
🚥 Koji
没有形成合力(synergy),反而出现了「你帮不上我,我帮不上你」这种情况。
👦🏻 周昌印
对,特别纠结。研发的人也很纠结,他觉得我出了个模型,你为什么不能把我产品化?然后产品说我要这个东西,为什么你模型没给我。
🚥 Koji
最后谁胜出了呢?
👦🏻 周昌印
最终,专注于应用和用户需求的方向胜出了。到了 2023 年 10 月,我们发布了一个 PR(新闻稿)宣布我们的模型成果。虽然 PR 中没有明确表示,但实际上这意味着我们不再继续纯研究路线。
我们发布了一个名为「HiveNet」的多模态模型,但从那时起,我们的研发团队所有项目立项都必须从产品需求出发,必须得到产品团队的认可才能进行。
理论上我们仍然为研究团队保留了 20% 的资源,让他们可以探索自己感兴趣的方向。但从 2023 年 10 月之后,我们所有的研发立项都是从产品需求出发,以解决实际问题为导向。
🚥 Koji
但这样的话,研究人员会因此而离职吗?他们会不会觉得这里不再是当初吸引他们的研究环境了?
👦🏻 周昌印
其实不会。
经历一年多的发展历程,大部分的研究人员期望将自身研究成果整合到产品中。他们注意到我们其他产品拥有庞大用户基础,但是自己的研究难以进入这些产品线。这种情况确实与研究人员的心态密切相关。
我们有幸与几位特别关注应用落地的研究人员建立合作关系。如今,每当 Vozo 用户量实现增长且反馈积极时,这些研究人员便会感到非常开心。我相信这已经形成了持续向上的良性循环。
🚥 Koji
方便问一问,Vozo 目前融资到什么程度?团队规模大概是怎样的?这里面的研究以及产品都分别占多少?
👦🏻 周昌印
我们现在融资在 A 轮之前,主要是线性资本跟红杉种子。大概后面还有一些个人投资者加在一起大约会有 600 万到 700 万美金的样子,所以我们的资金效率可能还算是比较高。因为我们中期迭代过很多产品。
🚥 Koji
从 21 年到 25 年,四年只融了 600 万美金,资金效率确实非常高。
👦🏻 周昌印
我们从 2022 年到 2023 年开始,之前的一些产品相当成功,也产生了营收,所以我们的财务状况比较健康。目前整个团队的现金流是正向的,因此压力不会那么大。这一点是我们最初没有意识到的,但后来发现这对整个团队的心态有很积极的影响。
我们现在团队有四十多人。研发人员占比大约 70% 以上,所以我们在研究方面投入非常重。
🚥 Koji
我很好奇,一个仅有四十几人的团队如何能够凭借百万级别的 ARR 实现收支平衡?这是否意味着你们还有其他产品线在持续贡献收入?
👦🏻 周昌印
Vozo 虽然是我投入最多精力的项目,但它并非我们目前营收的主要来源。
我们之前开发了两款应用程序,在国内称为 「说得提词器」(现改为 说得相机) APP,在海外市场则名为「Blink」。这两款应用同样致力于帮助创作者更轻松地制作视频,但其背后采用的是较为传统的计算机视觉和自然语言处理技术。
这两款应用的 ARR 约为 600 万美元。正是这些产品确保了我们目前的现金流达到收支平衡。所以现在 Vozo 赚的所有 ARR 都是我们的利润。
🚥 Ronghui
你们现在是一个应用工厂的模式吗?
👦🏻 周昌印
这是个好问题。
最初我们并未确立明确方向,仅围绕「视频表达自由」这一理念,基于用户需求开发了首款应用。后续我们发现这个应用采用传统计算机视觉方法反而能力受限,随即着手开发基于生成式 AI 技术的新产品。
在相当长的一段时间内,我们同时运营着两款产品,这也是我们团队感到特别痛苦的地方——同时推进两条平行的产品线。不过随着时间推移,我们现在找到了将它们有效融合的方法。再过一段时间,你会发现这两款产品实际上将合并成一个统一的产品。它们的功能将相互共享,最终能够服务于所有内容创作者、各公司的市场营销经理以及电商从业者等——所有需要通过视频讲述视觉故事的人。
🚥 Ronghui
找到了什么方法可以让它们很好的结合起来?
👦🏻 周昌印
这两个产品之间的用户重叠率大约为 20% 到 30%左右。
在定位方面,APP 端主要面向 C 端,包括关键意见领袖 (KOL)、关键意见消费者 (KOC) 以及少量的中小企业 (SMB)。而 Vozo 则主要服务于企业营销部门和部分中小企业,因此我们在中小企业这一细分市场有较多重叠。
产品合并后,它们将实现用户互相导流、功能互相共享。我们会建立统一的会员系统,用户购买 Vozo 会员后可以同时使用 APP 中的功能;同样,购买 APP 会员并添加一定点数后,也可以使用 Vozo 的功能。这样两边的用户将完全打通,我们对此非常期待。
合并后的产品将统一使用 「Vozo」这个名称,因为整个团队更喜欢这个品牌名。
🚥 Ronghui
为什么叫 Vozo 这个名字呢?
👦🏻 周昌印
这个名字是 GPT 帮我们创造的,确实非常有趣,给我留下了深刻印象。
我们想找一个简短的词,与 「video」和 「voice」相关,因为我们在制作内容的时候基本上都是 「talking to video」——有人在说话,有人在画面中展示自己。
除了与「video」和「voice」有关联外,我们还有一个愿景:希望将来每个人都能拥有自己的专属空间。在这个空间里,你可以像写博客一样,通过视频分享你的想法和情感,拥有属于自己的个人领地 Zone。基于这个理念,我们将其命名为「Vozo」。
不过选择这个名字最主要的原因是我们都喜欢这个发音——简短有力,vozo.ai 一共只有六个字母,而且非常朗朗上口。这就是我们最终选定这个名字的过程。
视频模型与 Vozo:差异化的技术路线
🚥 Koji
过去一年,视频大模型领域发生了非常多的变化。
我们上一期正好就是和 Luma 的产品经理在聊《AI 视频大模型 20 问》,来带大家复盘从 Sora 发布至今的一年,视频大模型领域发生的种种事情。
在这些发展中,哪些与 Vozo 有直接关系,哪些有间接关系?
👦🏻 周昌印
Sora 与我们的业务关联相对有限。
2023 年 10 月,如我先前所述,我们发布了一则新闻,展示了团队此前开发的视觉模型。这一时间点位于 Runway V2 发布之前,即 Runway 第一代模型推出之后的阶段。通过该项目的实践经验,我对视觉大模型在视频生成领域面临的技术瓶颈形成了清晰认识。
我能够预估这些技术瓶颈的突破时间点,包括可控性、一致性及计算成本等关键指标。同时,我也评估了将成本降低至普通创作者可接受水平所需的时间周期——例如,生成一小时视频的费用需控制在 200-300 美元以内。基于这些判断,我决定不再继续推进视觉大模型的开发。
当然,还有其他因素影响这一决定,比如这项工作需要大量资金投入。我不是特别擅长融资,所以认为自己可能做不了这样的一个事情。因此,我转向开发 AI 增强或 AI 辅助的视频创作工具,而非直接从文本生成视频的系统。我认为在短期一两年内,后者很难有重大突破。
另外,我认为即使有突破,它也不会成为一道行业壁垒——这一点后来得到了验证。虽然 Sora 发布时令人印象深刻,远超其他产品,但我们预计几个月后其他公司也会推出类似技术。这确实如期发生了,现在中国已有多家公司能够开发视觉大模型。
这形成了我个人的一个判断:
无论是语言模型、音频模型还是视觉多模态模型,只要它是通用的,未来都不会成为壁垒。因为总会有开源和各种方式使其普及,所以我们的创业尽量避开这些领域。
我们自主开发的所有模型,均针对特定应用场景的专业需求。例如,在翻译领域,我们对语气保持有特殊要求,因此专门开发了声音克隆、语音合成和唇形同步等模型。我们围绕真实用户需求,在垂直领域中持续迭代产品模型。对于外部的基础模型,只要适用于我们的场景,我们都会采纳整合。
🚥 Koji
你们为了提升用户体验确实做了大量的工作。
从最初的提词器 App 到现在的「翻译语气保持」等方面,都体现了这一点。不过,我感觉这些努力可能并未被用户们充分感知到?
👦🏻 周昌印
是的,我认为用户真正使用后才能体会到这些技术的价值。以我们的翻译功能为例,如果大家亲自尝试就会发现翻译中存在许多难点。
比如将中文翻译成德语时,两种语言的表达长度差异很大。据我了解,德语可能是最繁琐的语言之一——你用中文说 5 秒钟的内容,用德语可能需要 15 秒钟。在同一个视频中,如果画面没有明显变化,就会出现异步问题。比如说中文部分 5 秒钟说完了,那么嘴巴是继续动还是停止呢?你不能让嘴巴闭上 15 秒钟吧?这个问题该如何解决?
其实有很多解决方法。在翻译时,我们需要找到一个既能在语义上匹配原文,又能在语气语调上接近原声,同时还能与口型自然匹配的翻译方案。这实际上变成了一个优化问题。
不同语言有各自的特点。例如,当你拍摄一个一分钟或 15 秒钟的短视频来讲述品牌故事时,品牌名称通常是一个专有名词。翻译的过程中如果你不了解这点,可能会错误地翻译品牌名称。人工翻译时,你可以提前告知翻译人员:「这是我的品牌名称,请不要翻译错了」。但机器翻译通常缺乏这种上下文理解,会直接将其翻译出来。因此,我们需要一种合理的方式来指导翻译系统进行调整,这又使得刚才的问题变得更加复杂。
口型同步也是类似的挑战,不同语言有不同的口型特征。关于情感表达,普通的声音克隆技术,比如 Koji 或者 Ronghui 口述的一分钟,可能只是学习你们一分钟语音的整体音色。但翻译不同,理想情况下,我们希望每一句话的情感都能被准确复制。比如原声中一句话平静,下一句话激动,那么翻译后的语音也应当保持相同的情感变化。
但是,翻译又不能简单地一句对一句进行,那样会丢失上下文,导致翻译质量下降。所以我们既要考虑上下文,又要保持对应关系,还要能够复制原声的情感。这就是为什么在行业常识中,机器翻译长期被认为是不够好的。
如果你对质量要求很高,传统上你会雇佣一个专业团队,花费每分钟 50-100 美元进行翻译。但实际上,如果这些技术都做得足够好,我认为它的效果可以超过一般的人工翻译。当然,与顶尖专家相比,可能还有差距。不过我认为再过一两年,这项技术可能会超越人类专家的翻译水平。
对于电商用户来说,当你需要翻译一个推广视频时,基本上只需输入一个视频,就能得到一个保留了原始语气、语调和情感的翻译版本。最近我们还尝试了短剧的翻译,这更具挑战性,因为短剧中的表情通常非常夸张,有时候角色会激动地拍桌子。如何保留这些情绪和语调是一个重大挑战。
所以我们正在逐步挑战更困难的问题。最初我们从简单的演讲开始,现在慢慢能够处理一些短剧的翻译了。
🚥 Koji
上面提到的这些问题,我感觉每一个问题都很有意思。
你们在面对这些问题时,是优先用工程手段、还是技术手段去解决呢?
👦🏻 周昌印
我们会采用多种解决方案,包括研发手段(如模型提升)、技术手段(工程方法)以及产品手段。一般来说,我们优先考虑产品手段,比如添加一个弹窗提示用户点击某处,这通常是最直接有效的解决方案。
其次是技术层面的优化。就像刚才提到的那些优化:既要延长语音时长,又要与画面对齐,还要保持情绪表达不变,这本质上是一个优化问题。我们可以编写算法来实现这些优化,这属于工程方法。
还有一些问题,比如语气的精准复制,如何能够快速地逐句复制情感表达,这就需要模型的迭代改进。所以解决方案分为这三个层次,这使得工作非常有趣。当发现问题时,我们需要决定使用哪种方法来解决,哪些是当前的临时解决方案,哪些是未来必须完成的改进。刚才提到的语气复制就是一个很好的例子。
最初,我们会给用户一些交互选项,比如允许他们加强某些表达效果,让用户自己进行控制。但这实际上非常困难,特别是在翻译方面,很多用户甚至听不懂第二语言。因此,我们逐渐转向使用模型来直接帮用户完成这些任务。
还有一个有趣的问题:比如将中文翻译成阿拉伯语,作为用户,你可能完全不知道翻译是否准确,这种情况该怎么办?如果你雇人翻译,付钱签合同后,对方翻译错误,你可以向他们追责。但作为 SaaS 服务提供商,用户无法向我们追责,那该怎么解决这个问题呢?
因此,我们提供了一些创新功能,比如「回译」(back translation)。这个功能会将翻译后的内容再次翻译回原语言,然后你可以对比原文与回译文本。如果意思大致相同,那么原始翻译很可能是准确的。
🚥 Koji
有意思!先翻成阿拉伯语,再把阿拉伯语翻成中文。这有点像之前快乐大本营的游戏,一个人蒙着眼睛给另一个人讲,然后再往前传递。
👦🏻 周昌印
否则的话这个问题很难解决。你怎么说服用户,特别是用户如果他发的是很重要的 marketing 的视频,他很难去点这个 button,他不知道你翻译的对不对。
🚥 Koji
其实刚才有提到 Sora 的发布,视觉模型对你们做 Vozo 的影响其实不太大。
但感觉过去这一年,其实大家说到 AI 视频,都觉得是视觉模型在突飞猛进,各种新闻都和它有关,各种炸场的产品也都和它有关。
过去一年有哪些技术突破,让 Vozo 从不可能变成可能,或者从原来只能做 60 分做到 80 分、90 分?
👦🏻 周昌印
对,这些技术都紧密相关。
以 Sora 的 DIT 架构为例,该技术与我们直接相关。在声音复刻和嘴型生成领域,如果对这个方向比较熟悉的话,业内人士都知道四五年前存在一套老旧的技术方案,主要依靠 GAN 或其他生成模型,但当时的清晰度很低,真实度较差。
经过这波技术革命后,我们开始采用 transformer 进行口型生成。近期又出现了新的技术演变,比如高斯 splatting,它能更快速地生成更高质量的内容。我们并不专注于研发非常底层的新技术来替代 transformer,而是基于现有技术对口型生成进行优化。通过翻译后,我们还能对口型做调整。目前,我们的口型同步(lip sync)技术可能是行业领先的、最好的之一,这得益于我们拥有大量数据积累和对最新技术的持续跟进。
我们也应用各种视频生成模型。在最新发布的功能中,我们能让静态图片动起来并发声,这实际上是利用视觉大模型进行生成。我们的模型有其独特之处,主要专注于让照片自然地动起来。很多公司都在研究如何提高生成速度,以及如何让动态效果与语音更加和谐。当整个视频生成行业不断前进时,我们努力站在前人肩膀上,跟随这一发展趋势,解决过去无法解决的用户问题。
回到刚才的问题,无论是快速的单句声音克隆、高度真实的口型面部表情,还是整体画面的生成,这些技术突破大多发生在过去一年半到两年内,有些甚至仅在过去半年才出现的创新。
🚥 Koji
视觉模型正在快速发展,Google 最近也发布了广受好评的 Veo 2。
你如何看待这一观点:随着基础模型不断进化,它们可能最终会「吞没」和取代那些专注于特定功能优化的产品?
👦🏻 周昌印
对,我认为这一定会发生。它就像一辆大车,对于产品开发者而言,我们内部有一个准则:
如果是标准模型,不要去触碰它,我们应该专注于开发靠近应用端且与众不同的东西。这些差异化的产品实际上非常稳固。
回顾过去,以 Midjourney 为例,从文生图到整体生成框架,技术基础可能大同小异。但从商业角度看,很多用户已经习惯使用 Midjourney,而 Midjourney 本身在技术上有许多精细调整,这些微小差异能带来巨大的用户体验区别。
视频领域也是如此,未来可能会出现类似 Deepseek 的更易用的视觉模型。但当你将技术应用到具体场景时,差异会变得极为显著。这一现象在过去的谷歌眼镜项目、我之前的创业经历,以及包括 Midjourney 的 David 在他上一次创业中都有体现。在相同的技术时代,他能做得比其他人好很多。
这正是应用端技术人员应该专注的方向。
我认为不必过分担心单一模型会消灭所有技术空间和创新机会,这是不可能发生的。
在技术相似的基础上,应用层面的创新和优化仍有巨大空间。
🚥 Koji
有没有什么 idea 是你看到了技术突破带来的新产品机会,但还没顾得上去做的?或许可以给正在创业选方向的朋友们一些启发。
👦🏻 周昌印
这个不敢说,因为只有进行实际调研才能了解真相。但我个人对某些方向确实很感兴趣。因为我之前参与过谷歌眼镜,我认为将眼镜与低延迟 LLM 结合会是一件非常有趣的事,这蕴含着巨大的想象空间。
不过,这可能又让我重蹈覆辙——仅仅因为我对某项技术感到兴奋就投入其中。真正要做决策时,还是需要进行商业分析。从技术角度看,我们在开发谷歌眼镜时想实现的许多功能,当时做不到,而现在都已经成为可能。
谷歌眼镜项目中有一件事情,我也非常 buy in,也是 Sergey Brin 很想做的事情,「谷歌眼镜让你更聪明」。他们的构想是:比如 Ronghui 问我一个问题,实际上我无法回答,但眼镜能够迅速地给我提示,快到让我感觉答案是我自己想出来的。这种体验对于像我这样的用户来说,是愿意付费购买的。
从 Google X 到创业:精英到接地气的转变
🚥 Ronghui
你前面提到成立实验室的部分,我认为这对初创公司来说相对少见。能否分享当时想要实现的目标,以及这个实验室如何助力这些目标?
另外,我了解到你之前来自 Google X,成立这个实验室是否受到你在 Google X 工作经历的影响?或者你能否先介绍一下你在 Google X 的经历吗?
👦🏻 周昌印
虽然我最近在国内,但我的职业生涯大部分时间是在美国度过的。
2011 年我在哥伦比亚大学博士即将毕业时,正面临是成为教授还是尝试其他发展道路的抉择。恰巧当时斯坦福大学的一位教授邀请我加入他在 Google X 成立的新团队。于是我从哥大休学,与这位教授和另一位学者一起在 Google X 组建了新团队。
回顾那段经历,我们的团队实际上是为满足 Google 联合创始人 Sergey Brin 的众多探索需求而成立的。团队最终扩展到约 12 人,其中包括四位格莱美奖得主。我们基本上网罗了计算、摄影领域最顶尖的人才,因此完成了许多具有开创性的项目。我们负责开发了谷歌眼镜最核心的成像和视频处理算法,奠定了整个技术基础。从技术层面看,现在几乎所有安卓手机上的图像处理和视觉处理技术,都源自于我们当时建立的技术平台,这对我的职业发展产生了深远影响。
随后我开始了创业之路。我的第一次创业在美国,专注于 immersive video 领域的前沿技术,当时应该是业内最高清视频渲染生成的创业项目。而我的第二次创业——现在的公司——则形成了鲜明对比。这家公司做的是非常接地气的事务,这也是我最大的一课:
必须开发用户明确需要且不可或缺的功能。
这种接地气的产品往往不那么「性感」,我最初做的第一个功能让我感到有些「低级」,尽管用户都需要它。这产生了我个人情感上的矛盾,需要某种途径释放。另一方面,我认为这些接地气的功能虽然满足用户需求,但无法实现我们所追求的「视频表达自由」这一更宏大的愿景。用传统方式推进,很难达到我们的目标,尽管这样做能够创造收益。
因此,我意识到需要设立研究部门来解决一些核心问题。例如,有些人的形象较差,音色不佳,表达不流畅,无论如何剪辑都难以改善。即使提供最好的提词器、准备完善的脚本,他们也拍不出好内容。这些问题需要被解决,所以我们开始了研究工作。
这个决定有些任性,但非常幸运。并非我们独自取得了突破,而是整个行业在 2023 年实现了多项重大进展。我们的实验室借助这些行业突破,推动了相关技术的发展。所以这可能是一次冒险,但也是一次幸运的尝试。
🚥 Ronghui
这个其实就是乔布斯说的,你在某一个时间线上会发现前面的点都可以连起来。
刚刚你说的这个时候,我突然想起来,我认识你的时候应该就是在第一段创业的时候,对吧?
👦🏻 周昌印
对的。
🚥 Ronghui
你可以再说说,比如说当时在 Google X 工作时,那里是否就是一个没有预算限制、纯粹追求探索的环境?这种对科研工作来说是不是一个非常理想的环境?
👦🏻 周昌印
对,我觉得可能没法想象比那更好的环境了。
那时候的工作条件非常宽裕,我举个例子:我同时管理着一个图像实验室 (image lab),如果需要采购设备,一万美元以下我可以直接购买,非常奢侈。
在招聘方面,第一阶段我们会从 Google 其他部门挖来 A plus 级别的人才。当时 Larry Page 负责管理正式业务,而 Sergey Brin 则负责 Google X,探索各种创新项目。有一天 Larry 生气了,表示我们不能再从 Google 其他部门挖人,于是我们开始向外部招募。基本上,我们会寻找在特定领域最顶尖的专家,资源相当充足。
不过,这也成为我后来离开的原因之一。进入这种状态后,我们基本上都在做研究工作。后来我带领一个项目,有六七个人与我一起合作。我们在 all hands(全员会)上 demo,展示完毕后大家觉得非常酷,然后就没有然后了,但仅仅是挂在墙上作为展览品。
我发现这与我读博士时的经历没什么区别,感觉很轻松但有些浪费机会,太过自由了。当这种自由走向极端后,我意识到项目难以产品化,无法产生实际影响。这就是我最终选择离开的主要原因。
🚥 Ronghui
你能给听众解释一下,Google 的 A plus 指的是什么?
👦🏻 周昌印
我们会寻找其他部门能力最强、业绩最突出的人才。比如看中了 Google Earth 团队(负责Google地图)中某位特别优秀、最聪明的成员,我们就会去将他招募过来。这些人通常都愿意加入我们的团队,所以基本上我们可以在 Google 内部自行挑选人才。
这种做法其实对公司整体并不理想,特别是对业务部门而言,因为他们负责赚钱的,而我们这边主要是花钱的 (笑)。
🚥 Ronghui
正好前两天听 Marc Andreessen 他们最新的一期播客里面讲到并盛赞开源的意义。
其中提到说正是因为开源,才让学界有了能力去做一些前段时间只有大公司才能做的事儿。就是因为花费太高。
👦🏻 周昌印
我觉得把一些厉害的人放到能产生影响地方,我觉得是比较重要的。
而不是一些大厂或者是某个机构把很厉害的人聚集在一起,但不产生效果,我觉得其实是比较浪费的一件事情。
🚥 Ronghui
你当时抱着一种想要让自己的研究能够落地,能够变成现实的这么一个想法。
可以说一说你当时第一段创业经历主要是做什么?因为我记得当时是做 VR 对吧?
👦🏻 周昌印
对,这很有趣。虽然我带着避免过度研究导向的想法离开 Google,但回顾我的第一段创业经历,实际上仍然非常偏向研究驱动。我当时自认为已经很努力地把握用户需求,甚至确信自己抓住了核心需求,但现在回头看并非如此。
在第一次创业中,我更多担任 CTO 角色,因此特别关注技术是否处于行业领先地位。那时我们尝试的方向其实相当冒险 - 我们希望实现两个人无论身处何地都能随时随地见面的功能,即所谓的「心灵传输」(teleportation)概念。为此,我们开发了大量视频压缩技术,研究如何实现高清、实时渲染。
从宏观逻辑看,这种需求似乎非常巨大 - 能让任何两个人跨越空间限制实现连接。但实际上,如果从商业角度进行细致分析,你会发现这个商业场景并不成立。有许多因素会导致商业模式难以实现。
这说明仅仅有一个从逻辑上看似合理且市场广阔的创意,并不足以支撑你去实施这个项目。
🚥 Koji
但似乎也仅仅是尝试之后就结束了,大家的设备纷纷开始吃灰,没有人真正在用它打电话。你也提到这不是一个真正的刚需 ——你曾思考过这背后的原因吗?
👦🏻 周昌印
Vision Pro 刚上线时,我其实就不太看好它,尽管我知道它的体验会非常出色。我第一个创业公司有位员工后来就去参与 Vision Pro 的开发,因为他仍然对 VR 领域充满热情。
商业上能否成立其实取决于很多条件。首先是产品形态 (form factor) 如何,普通人能否接受,以及是否存在替代方案。另一方面,你需要形成完整的生态系统,需要有大量应用和内容生产,整个产业链必须运转顺畅。
我在第一次创业后,采取了更为保守的商业策略:专注于整个行业链中缺失的最后一环。有时你可能觉得某个愿景很美好,理应能够实现。但如果这件事需要五个环节才能完成,而你只负责第一环,期望别人完成另外四环,这实际上是极其困难的。
Vision Pro 也面临类似问题。无论从产品形态、价格还是用户必需性 (must-have reason) 来看,它都缺失了很多要素。当然,它确实有令人着迷的地方——体验非常好,非常酷炫。你可以想象出许多美好的应用场景,但这些场景难以形成完整的商业链条,因此难以真正成功。
即使像 Apple 这样财力雄厚的公司,也很难将如此庞大的产业链条串联起来。对创业公司而言,最好的策略可能是远离这类需要构建完整生态的宏大项目。
🚥 Koji
其实 Vozo 发布的第一版就已经非常成功。这个成功背后也有用户的认可——他们喜欢使用、愿意传播。
你觉得在做 Vozo 的时候,你自己是做对了哪几件事情,带来了这个结果?
👦🏻 周昌印
在开发 Vozo 的过程中,我发现自己比以往更有耐心。回想之前开发产品时,作为偏研究型的人常常过于兴奋,一有好想法就迫不及待要实现,否则会感到遗憾。而 Vozo 的诞生则经历了多次构思与否定的过程。
Vozo 的前身是我用 GPT 帮我写了一个我想用的功能。这使我能在电脑的 Terminal 里面用命令行去做视频编辑。2024 年 3 月左右,我对这个概念非常满意,便开始实际使用它来剪辑和修改视频,却发现实际效果与预期有差距。
虽然这个工具理论上可以帮我修改任何内容,但我却不确定该如何操作。我开始向 GPT 请教修改方法,然后逐条调整,但这个流程显得繁琐。于是我将 GPT 集成进来,只需告诉它「请将视频调整得更温柔一点」,它就能完成修改。
从 2024 年 3 月开始,我编写小程序进行使用、测试和迭代,不断添加新功能。直到 7 月,我才开发出一个较为满意的版本并决定上线。
这个过程中,我们进行了大量研究,这也带来了好处。由于我们之前有其他产品和多个社群,我对普通创作者的水平和可能遇到的问题比较了解。尽管我们的视频视觉模型已积累多时,真正推出产品前仍花了相当长的时间。
我认为值得花时间找到合适的产品再推广,好过你做了然后发现做错了。
🚥 Koji
你提到自己直接在 Terminal 里面用命令行去剪视频,这是在探索用户需求的过程中尝试的,还是当时你确实有这方面的实际需求?
👦🏻 周昌印
我构思了一个理念,希望能像编辑文字那样编辑视频。虽然已经将构想画成图纸,但我认为仅存在于脑海中的想法不算数,因此决定将其实现出来。最快的实现方式是通过 Terminal 操作,于是我开发了一个没有图形界面但可以通过命令行执行所有编辑功能的软件。
完成第一个视频后,团队成员开始提问:「这个视频也能改成那样吗?」然而,制作那个视频耗费了我大量时间,需要逐帧细致处理,这只是我的初始版本。
随后我开始思考如何将制作时间从 3 小时缩短至 10 分钟左右,因为我意识到普通用户若需花费超过 10 分钟完成任务,很可能就会放弃。就这样,我逐步改进我的原型,直到某个阶段,我感觉这个项目变得颇有意义,团队才真正加入并着手开发这款产品。
🚥 Ronghui
你说到第一段创业经历结束,后来回国再创业,当时心里面想说一定要做这个非常接地气的事情。
当时是什么样子的事情发生,或者是什么样子的感触,让你有了这个想法?
👦🏻 周昌印
我的创业体验在过去几年有了显著的转变。当初开发 VR 项目时,我们服务了包括 AT&T、Verizon、中国移动和中宣部等大客户。
但是我发现一个明显的问题:每次产品迭代后,我们总是需要求这些客户使用新功能。尽管他们付了钱,但许多时候产品只是被闲置,没有真正融入他们的工作流程。我们不得不主动索要反馈,而客户往往根本没有使用产品。这种情况限制了我们前一家公司的发展潜力。
这种感受在当时可能不那么明显,但 2020 年我回到国内,2021 年我在国内待了更长时间,情况变得更加清晰。疫情期间,我被困在杭州,利用这个机会与当地十几家 MCN 的 CEO 进行了交流。和这些人的对话形成了鲜明的对比:每次交谈,这些创作者都会提出大量具体需求,详细描述他们希望如何制作视频。
这与 VR 项目的经历形成了强烈反差:一边是有明确需求但我暂时无法满足的客户,另一边是我开发了许多功能却需要恳求客户使用的情况。后一种体验尤其痛苦。
这让我意识到,成功的商业模式应该是提供人们真正渴望的产品,完成后他们能立即投入使用,这才是良好的商业体验。
🚥 Ronghui
然后你做了什么呢?
👦🏻 周昌印
我们最初开发直播机的经历很有趣。当时许多 MCN 公司想建立包含数百个直播间的大楼,却面临着管理难题。高级直播通常需要多个机位和一名导播,所有人戴着耳麦协调操作,整个过程非常复杂。
为解决这个问题,我们开发了一款约人头大小的直播机。只需一人手持平板,大部分镜头切换都由系统自动完成。它能理解场景内容,当你展示商品时自动切换到手部特写,大大简化了导播工作。
作为研究人员,我们自然而然地希望用 AI 取代传统方法,但这款产品虽有创新性,仍不够接地气,存在诸多商业问题。
半年后,我们终止了这个项目,转而开发至今仍很成功的产品——提词器。提词是大多数人 (包括我在内) 面临的最大挑战。一旦需要记忆超过半分钟或一分钟的内容,就容易忘记。拍摄时如果记不住内容而频繁查看提示,往往会导致视频报废。
我们的 AI 提词器设计简洁实用,它悬浮在手机上方靠近相机的位置,类似卡拉 OK 但更智能——文字会跟随你的语速自动滚动,你停下它也停,语速加快它也随之加快。这解决了许多非专业创作者的核心痛点。
这款产品带来了意外收获。最初我只是确信用户需要它而开发,并不确定能否盈利。但推出后发现付费率出奇地高。于是我们围绕这一核心功能逐步扩展,添加更多功能,付费率也随之提高。
该产品于 2022 年上线,至今累计约 800 万用户。我们还建立了私域社群,因为许多达人需要专业指导,现在社群规模已接近 10 万人。这让我意识到国内市场规模巨大,对接地气产品的需求非常旺盛。
从 2021 年开始,我们先做直播机,后转向短视频制作,围绕提词器逐步完善应用。如今,这款应用已成为我们主要的营收来源。
🚥 Koji
当时做一个提词器 App,这听起是你之前可能十年的研究心得都无法发挥了。
那当时是一个什么心情?是否会产生一种割裂感,仿佛之前所有的专业积累突然失去了施展的舞台?
👦🏻 周昌印
确实,有时当我与以前的老师或同学交流时,我通常不会提及我在做什么(笑),因为提词器并不是一个特别「sexy」或高大上的产品。
但是说回来,开发一个真正好用的 AI 提词器实际上非常具有挑战性。用户录制时可能面临各种复杂情况:房间里噪音很大,说话者口音很重,语速不稳定或跳跃性表达。
要让产品在这些条件下依然表现出色,需要解决大量不起眼但至关重要的技术难题。再加上用户设备性能参差不齐的问题,整个开发过程充满了「脏活累活」。
这种情况也正如你之前提到的,某种程度上逼迫我后来建立了实验室。
🚥 Koji
如果再回到那个时候,你还是会做实验室吗?
👦🏻 周昌印
我认为这种情况确实存在多种可能性。那个决定的确是较为冲动的。当然,这与我之前的一位美籍外籍院士导师有关。
从逻辑角度分析,我们确实处于一线位置,了解视频创作中的众多实际问题。而许多研究人员虽然具备强大的研究能力,却往往不清楚真实问题所在。因此,从这个宏观逻辑出发,建立一个深度研究实验室、确定课题和研究方向是有价值的。这个结论本身是合理的。
问题可能在于时机——也许我不应该在同时创业的情况下进行这项工作。当时确实没有考虑那么周全,就直接付诸行动了。现在回想起来,我可能是 50% 不会再做、50% 会再做的态度,我并不完全确定如果再来一次,我会否再次建立实验室。
🚥 Ronghui
所以在时间上是到提词器的这个时间点。
那按照这个时间线,从 Google X 到第一个 VR 的创业项目,到杭州做了直播机,然后是提词器,接着是 Research Lab,最后是 Vozo 会跟提词器的 APP 会合并。
👦🏻 周昌印
对,提词器其实在原来 APP 里已经变成一个功能了。因为它只是这个 APP 最开始的入口。
不过回到刚刚 Koji 问我的问题,我觉得回到那个时候,这个 Lab 大概率还会做。如果不做 Lab 我一定会做别的。
🚥 Koji
别的更 crazy 的事情?
👦🏻 周昌印
对,否则的话我觉得如果我只是做纯的接地气,然后能够 make money 这件事情,我觉得我应该是不会接受这个东西的。
🚥 Koji
此刻呢?此刻你觉得自己接受了吗?
👦🏻 周昌印
我认为 Vozo 的成绩至少给了我一种自豪感,这是我亲手创造的成果,让我感到满足。相比之下,如果只开发了提词器,我可能会觉得无法向自己交代这段创业经历。
🚥 Ronghui
你在当时做提词器这个时候,我觉得对你的职业经历来看,要求是很高的。
因为你要改掉过去的工作习惯,作为一个有光环的海归,回来之后接触的人,也不是说人家做的事情就是接地气,而是你要去接触一群可能从来没接触过的人,你可能以前都不知道该怎么跟他们打交道。
我想问的问题是,你在这个时候做了哪些可能对自己影响比较大的自我反思(self reflection)或者其他什么样的比较大的调整,能让自己去做一些以前从来没做过的事情,克服这种我们从来没有做过这件事情带来的恐惧?
👦🏻 周昌印
我觉得我的性格比较有意思,因为这件事情我自己没做过,所以我在做的时候还挺 exciting 的。
有时候去一些直播基地,然后跟一些以前从来没聊过的人聊,有时候会让我非常 surprise。最开始做的时候,我举个例子,有一个用户跟我们抱怨说他提示器不好用。我们就问他是不是房间比较有噪音?画面看起来比较差,灯光是不是比较暗?他会很确定地跟我说,他房间里非常安静,灯光非常好。
我们就很奇怪,以为我们出 bug,于是去了他们拍摄的地方,发现他灯光非常暗,边上车来车往特别吵。我觉得很有意思,他不是说谎,他就是这么认为的。人是很不一样的,他觉得房间很亮,但我们说的亮不是他说的亮,我们觉得安静,不是他说的安静,这很有趣。
所以我去很多直播基地,包括跟每一个 MCN 的 CEO 聊的时候,我觉得他们跟我们完全不一样,很好玩。这好玩是一方面,但有时候晚上静下来想想我做的是什么事情,就又会有别的感受。我知道可能有些人会很难接受,但我还好,我觉得这部分让我觉得 exciting。
不 exciting 的点是我做的东西好像别人也能做,或者说我可能做得比别人好一点点,但让别人做也能做,这是我的挑战。因为我之前做 researcher、做 scientist 的人一般会有一个想法,就是我要做别人做不出来的东西。这是心理上比较大的挑战。
🚥 Koji
这也是一个经济理性上的考虑。
当我做的是其他一万个人都能做出来的东西时,我就没有独特的竞争力。所以我要做别人不能做的事情,这样的竞争力才能让我有持续的差异化,可以越做越轻松。
👦🏻 周昌印
对,技术出发的人,这个坎一般过不去。总是觉得如果做的东西没有技术领先优势,感觉就不能做了。
有时候我们不能叫自己精英,但说精英创业的话,这其实是很难突破的一件事情。你总觉得要做点不一样的事情,但从商业角度来说,其实不是这样子。
🚥 Ronghui
我觉得这是很多研究背景或技术背景创业的人都会遇到的问题。你怎么样从商业的角度来看这个问题,而不是从技术突破的角度来看这个问题。
👦🏻 周昌印
对,每天都会看到很多项目是这样子的。我觉得有几个思路,可能没有特别系统化。第一个是需要成为一个好的产品经理,就是得抛弃自己的 wishful thinking。
比如我第一段经历就更像是 wishful thinking。我觉得如果做成一个能够远程传输的系统,就会有人去用它,然后就会有人给他做相机、做设备,大家就会付费。这些看起来逻辑正确的想法,但它其实并不会发生,它会不会发生,问一下就知道了。这是第一个要克服的事情。
第二个是 knowledge,创业者可能并不知道对于整个市场来说,需要你的这个创新的人群占比是多少。如果你真的去做调研,你会非常 surprise,那些你很在意的创新点,对用户来说,可能只有 1% 的人在意这件事情。这是 knowledge 的缺失。
所以一个是态度上 wishful thinking 的事情,一个是要更了解市场,还有就是如何去掉自己的 ego,这需要一个系统性的理论。我现在没有这样的理论,也许 Koji 你可以想办法去总结一下,我觉得对很多创业者会很有帮助。
放下 ego:创业者的自我革新
🚥 Ronghui
你刚才说到去掉自己的 ego 这一点,这是我觉得最难的一点。现在回头看,当时你做了什么事情来去掉自己的 ego?
👦🏻 周昌印
其实都是被动的一些教训,才会去做这件事情。因为你不会觉得自己错了,但错了几次之后,你就知道了。
🚥 Ronghui
有没有一些什么样的时刻,是你觉得自己在经历一个很大的改变?
👦🏻 周昌印
你说某个时间点吗?
🚥 Ronghui
或者是某些特殊经历,或者你在这个阶段要求自己去做一些以前从未尝试过的事情。
👦🏻 周昌印
我觉得至少在行为上会有一些变化。
ego 有一个表现是认为自己想的东西都对,无论大的小的都会试着去说服别人。我不知道这种变化是什么时候发生的,但在团队里,因为我还是会参与比较多的产品和技术,有时候我会提出一个技术方案,然后这方案可能会被小朋友们否掉。
现在我一般会很习惯被否定,虽然他否定的不一定对,但只要这件事情不是非常 critical,我就会让他过。这是一种改变,我以前不是这样的,我以前会觉得我是最聪明的,我的想法一定是对的。而且我以前会觉得这些细节很重要,如果做成那样,性能就会从 99% 变到 98.9%,这是不能接受的(笑)。但我可能想不起是从哪个时间点开始改变的。
🚥 Koji
是不是因为曾经这样的放手也让你得到了正反馈呢?
👦🏻 周昌印
我觉得是放手之后自己时间会多很多。
因为从概率上来说,如果用我的方案可能 70 分,然后用他的方案可能 65 分,其实没有太大区别。而且因为那是他的方案,所以他执行得会更好,做出来的结果可能比我的方案还更好一些,所以没有必要去纠结这种东西。
只有一些真的非常 critical 的事情,才需要我想得很清楚,一定要说服所有人,而这应该是非常极少数的事情。
🚥 Ronghui
那你在这个时候有对创业这件事有什么新的理解吗?
👦🏻 周昌印
我在最开始创业时有个心路历程。我是 15 年从 Google 离职开始做第一家公司的。那个时候很懵懂,我就做 CTO 然后去解决技术问题。所以创业就是一个模模糊糊的东西,反正感觉很激动就去做了。
后来慢慢觉得,创业的事情好多,每天都要忙。包括我第二次创业做 CEO 的时候,什么事情都会自己去做。但其实我的精力非常分散,一些公司重要决定我觉得都没有做对,可能因为花的精力没那么多。然后慢慢发现其实重要事情没几件,现在更多纠结的是到底哪件事是重要的事情。
比如现在我有三件事很重要,但我心底里知道其实中间可能只有两件事是真正重要的,然后我会花很多时间去想到底哪个更重要。所以我在想一些更厉害的创业者,他能够一眼就知道这件事情更重要,那件事情不需要做。
这个路径我不知道接下来三五年会怎么演变,但我觉得聚焦、知道什么事情更重要,可能是那些特别厉害的创业者和像我这种比较普通的人的差别。
🚥 Koji
有一个好奇就是当时这个公司融资的时候,找线性、找红杉应该聊了一大圈。你是用直播机这个 idea 去融的资吗?
👦🏻 周昌印
对,直播机。
🚥 Koji
当时你的整个研究背景,包括第一段创业也是做 VR,跑去做直播机,这个确实是一个很大的转变。
当时你是怎么下定决心的呢?是看到了「直播机」某个远大的商业前景吗?——让你愿意自己下场做 CEO 去承担最大的风险来创业?
👦🏻 周昌印
其实有两方面的想法。第一个就是我觉得国内的电商以及对短视频的需求,这是一个非常大的市场,里面一定有机会。有一些技术能力的人,加上商业能力(因为我是温州人,总觉得我的商业能力不会太差),我觉得这个地方一定是有机会的。
直播机是否为最佳选择我并不确定,但是在当时看上去是有明确的客户,他们想要,而且我们也能卖蛮多钱。只是当时没有完全分析清楚直播机这类软硬件项目的长期发展路径及可能遇到的障碍,就直接付诸行动了。
所以中间我们经历过有一次融资,有一个还蛮有名的国内的一家美元基金的老大就直接跟我说:「你为什么做这个事情?你能做别的吗?」
🚥 Koji
我觉得确实这是一个挺让人意外的人生转折。
做那么久的 research,然后现在跑出来要创业去融资的时候讲这样一个 story。每个人都会怀疑自己可能听错了你要做的方向,会有这种巨大的落差感。
你小时候就会经常这样,就出人意料地做一些决定?
👦🏻 周昌印
对,我比较特别一点,有很多很奇怪的决定。
🚥 Koji
你人生中还有做出过其他「出格」的决定吗?
👦🏻 周昌印
我本科是管院的,所以我是先在管院学习,然后毕业后去微软工作。这是很奇怪的一件事情。在微软工作一段时间之后,觉得我想做 research,所以我就从微软辞职,然后去读研读博了。
🚥 Ronghui
本科是学管理,然后研究生读的计算机,对吧?
👦🏻 周昌印
对。
🚥 Koji
而且多数人到了这个岁数再转 research,其实是很难很难的。
👦🏻 周昌印
我不是很操心这些事情,可能沉没成本在我这边不是很重要。我觉得接下来是该做的事情可能就可以做了。
🚥 Ronghui
你是李诞说的那句话,「沉默成本不参与重大决策」。
我觉得刚才你说到你做 Vozo 的前面做的那些,因为你自己在做一些研究,然后自己用工具来把它写出来。其实之前做研究可能有一些因为环境的优势,让自己也可能相对来说对更接地气的东西,之前在前期可能接触的不是那么多,然后到后面我觉得它是一个闭环,这恰好其实也是你自己做 research 的一个习惯。
结合了工具,结合了特别是 AI 之后的一些机会和工具相关的大发展,它合起来发挥了一个作用。
👦🏻 周昌印
对,我觉得最后结合点其实是在产品上面。我觉得产品经理真的是蛮难做的,差不多是过去的这么多年,硬生生把自己变成了一个产品经理。
👦🏻 周昌印
我觉得产品经理可能是这个时代比较有意思的一个岗位。
你要理解技术,要理解市场,甚至要理解一下流量怎么来。然后这几个东西全部能够很好地结合在一个东西上,那就是产品。所以技术的人过来做产品,或者市场的小伙伴去做产品,都会有很多挑战。
我走的可能就是从 research 到技术到产品这条路径,我觉得还挺好的,是挺有趣的一个过程。
🚥 Ronghui
当时做这些事情的目标是什么呢?是要去做一个什么样子的公司,还是我要赚钱?
那个核心的心理动力是什么?以及你刚才说的「沉默成本不参与重大决策」,我觉得这是一个挺特别的地方。
👦🏻 周昌印
我觉得那个可能是人的个性,我可能是个纯理性的人。
我是个概率论者,所以还好。我觉得初衷可能有两部分。第一个就是从以前做研究还是在 Google 的影响,就是做 researcher,希望我自己的 intelligence 能够非常 positive 地影响非常多人,影响这个世界。这可能是从大的内心的一个想法。
另外一边就是更具体的,我在 Google 的时候就一直觉得用 video 去传递信息,是一个必然发生的事情。因为 video 的信息量是最大的,bandwith 也最高,迟早会发生这件事情。我总觉得这件事情一定会发生,然后希望自己是中间主要促成的一个人。
但 15 年的时候太早了,发现市场也不 ready,技术也不 ready。到了 21 年的时候,我发现这个东西好像有一点点机会。所以这也回到刚才 Koji 问的问题,为什么 21 年会回到国内去做这件事情。因为这个 video story telling 这件事情跟我最开始想做的事情有一定关联性。
🚥 Ronghui
总结来说还是因为有一件你非常相信的认为一定会发生的事情,你希望自己能够是这个一定发生的事情中的一部分,并且最好能够成为推动它发生的人。
🚥 Koji
你经历过和最聪明的一群大脑一起工作、看到过非常多顶尖的人。你认为顶尖的人和其他人,最大的区别有哪些?
👦🏻 周昌印
我觉得我可能是比较幸运的,接触过一些特别 high profile 的人。我最开始在微软亚研院,不知道是不是方便在节目里提他们的名字,反正他是一个现在美国科学院的外籍院士,算是我的导师,会有一些近距离的交流,会发现他是怎么做事情。后面他把我送到美国本部去,和当时美国微软那边最主要几个人都聊了几遍,然后我又去哥大跟了另外一个院士,他算是在计算成像这边最厉害的一个 professor。后面我又去了 Google,跟 Sergey Brin 和另外一个 Graphics 的 fellow 一起工作过。
我觉得他们有一些共性,非常 focus,想的东西蛮少的。
就像我的导师来说,他带的学生也非常少。到了今年他应该快 70 岁了,今年还拿了两篇 best paper。他想东西非常聚焦,他觉得这个领域里面这个问题最重要,这个问题里面这个小问题最重要。他就会想这件事情,解完之后,自然而然就会把其他的事情给串起来。因为你把最重要的事情解决掉之后,很多无论是 resource 还是人自然就会聚过来了,这件事情就做完了。有时候你会觉得他挺轻松的,就非常 focus 做这件事情,我觉得这是一个特点。
很多不是 top 的人可能没有这么幸运,只做重要的事情。他可能因为生活原因要做很多其他的事情,那反而变成一种循环。而顶尖的人只做最重要的一件事情,其他事情让别人来做或者不做,我觉得这是一个很大的差别。
你需要促成这个变化,也需要很多能力。比如说你想聚焦,你可能想不出来「我应该聚焦在哪」,即使有人给你 100 万,不用担心别的任何事情,让你去做你最重要的一件事情,你可能也想不清楚你最重要的一件事情是什么。
我认为这是一个较为重要的差异点,可能是最关键的区别之一。这是我近期思考较多的议题,虽然未来我的观点或许会有所变化,但目前我认为这一点确实至关重要。这背后涉及一种普遍的心理倾向:人们往往趋于中庸,当思考三个不同事项时,我们下意识会认为这三者均具有同等重要性。
但如果你觉得 1 比 2 重要,2 比 3 重要,可能你觉得一个是 80 分,一个 60 分,一个是 40 分。如果你这么打分的话,我觉得你可以把方差拉很大,你肯定会低估中间的重要性。如果你觉得一个是 80 分,一个是 60 分,一个 40 分,大概率可能是一个是 90 分,一个是 20 分,一个是 10 分。
人总是会很中庸的。
🚥 Ronghui
你自己现在会有什么区分最重要事情的方法?
👦🏻 周昌印
一种就是我想「我不做会怎么样」,很多时候不做也不怎么样。
不是说不做不舒服,而是不做真正会导致我们公司营收下降吗?用户真的就会跑掉吗?会跑多少?是跑两个还是跑 20%?大体一算,很多时候就不重要了。
向最优秀的人学习:成长与思维方式
🚥 Ronghui
那你自己有什么保持学习的方法?
👦🏻 周昌印
现在主要是跟 GPT 学了,我是 ChatGPT 的忠粉。他们因为我应该亏了好多钱,因为我每天用 (笑)。
o1 一出来的时候,我基本就是三天两头都会把它的额度用尽,然后要等到第二天才能继续用,现在就可以自由使用了。我觉得它已经比人聪明了,跟它学就行了,这是一个方法。
另外就是尽量找每个领域最强的人跟他学,无论是学术这边的,找他聊。我觉得这是比较重要的一件事情,你做一件事情就找这件事情最厉害的人先跟他聊一聊,我觉得这是比较有效的一种方式。这可能是跟我以前读管理学院的时候,逃学逃多了,上课都不去,上的时候都要先找一下老师,让老师给我划一下重点(笑)。
🚥 Koji
这个观点非常有趣。我们上一期嘉宾 Justin,曾经创办游戏公司沐瞳,后来以超过 40 亿美金的价格将公司出售给字节。当我们向他提出类似问题时,他也表示「找最厉害的人学习」是关键。
我们又问他接下来打算向谁学习,他提到第二天已经约见了 DeepSeek 的一位合伙人。
但我想探讨的问题是,并非每个人都可以轻易接触到顶尖人才。年轻人应该如何找到并接近那些你认为厉害的人呢?
👦🏻 周昌印
我觉得只要去找你边上能找到的最厉害的人,这件事情就已经 80% 被完成了,也未必要找到这领域最强的。你会发现很多人其实不难找的,你去找他,他大概率也都会跟你去聊。
我其实最开始意识到这件事情也很晚了,是在读研的时候才慢慢意识到这件事情。我原来在复旦读研,那时候就想我要做 computer vision research,我应该去哪呢?我要去出国,我也不知道怎么出国,然后我就东看看西看看,看到北京有个微软亚洲研究院,然后我就发了封邮件给里面的一个 researcher。
他应该算是我后面很重要的一个贵人,然后他就打电话面试我,打完电话我就去北京了。去了北京后,他又帮我推荐给前面提到的微软亚研究院那个老大,然后他又把我推荐到哥大去读 PhD,然后推荐到微软,后面就会参加一些学术会议,做一些报告。
有个很有趣的事情,我做了个学术报告,观众里有个老头问了我一个问题,就是开放麦,他问我,我回答完之后,这个老头就是后来我去 Google X 的老板。他记得我,后来就打电话问我要不要跟他一起去。所以我觉得你只要关注边上你能 reach 到的人,然后认识他,这网络其实很小的,就可以了。
🚥 Koji
之前听过一个说法:把每一次谈话都当成一次面试。
但仔细想一想,每次只要放松一点心态去面对一场场的沟通,然后尽量去不要太害羞、多表达。
👦🏻 周昌印
对,我觉得这是一个大学或高中应该培训的 killer skill。
为什么觉得这个值得聊呢?因为我们现在国内会招一些国内的同事,我觉得国内同事这方面明显比美国同事的意识要弱很多。所以有时候会花一些精力,想让他们中间有一些特别有天赋的人变得更厉害一些,有时候会想这些事情多一点。
放眼未来:国内市场与团队扩展
🚥 Ronghui
我们知道 Vozo 之前是在海外的 App Store 上线的,那现在是有要做中文版的规划吗?
👦🏻 周昌印
关于国际化策略的规划其实由来已久,内部曾就「是否支持国内市场」以及「何时支持」等问题进行了多次讨论。
虽然我们此前并未正式发布中文版,但实际上我们已积累了相当数量的中国用户。这可能源于我们处于中国科技圈的关系网,加上中国短剧出海、电商出海用户基数庞大,因此吸引了众多中国用户使用我们的产品。
这些用户大致分为两类:一部分用户在使用过程中不断反馈希望推出中文版本;另一部分用户则面临支付困境,因为我们的付费系统暂不支持支付宝和微信支付,导致他们无法顺利完成付费流程。这两类问题构成了用户最主要的反馈意见。
我觉得差不多是时候了,因为我们迭代 PMF 也差不多完成了,然后我们再做增长。国内的话我觉得应该去支持它。另外一个 debate 是有些公司会说我要把中国市场踢出去,我们团队从来没有这么想,只是说我们中国排第几,是先做日本再做法国还是怎么样。我们现在决定不管怎么样,先把国内市场支持了再说,至少让国内用户可以看得明白,可以付费,可以给我们发 support ticket。我觉得这是比较重要的事情。
大家如果对 AI video 很感兴趣,无论你是做产品的,做研发的,做工程开发的,都可以随时发消息给我们,我们可以因人设岗。
🚥 Ronghui
好,我们今天非常谢谢昌印跟我们分享他做 Vozo 的过程,对行业的看法,他自己很多的个人经历,特别是作为一个创业者,从一个研究者到一个创业者的身份转变,以及过程中的很多感想跟自己的思考。
我们今天就先聊到这里,谢谢昌印做客十字路口,也希望以后我们能有机会继续这样子的交流👋。
👦🏻 周昌印
谢谢 Ronghui,谢谢 Koji,今天非常开心交流❤️。
🚥 Koji
谢谢,拜拜👋。
欢迎订阅「十字路口」播客
🚦 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。AI 正在给各行各业带来改变,我们寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱新变化,新的可能性。
👦🏻 主播 Koji:新世相/躺岛的联合创始人。我相信科技尤其是 AI 会在未来彻底改变社会,赋能人类,欢迎大家找我聊天,碰撞想法,链接下一个可能性。Koji 的即刻[3],Koji 的网站[4]
👧🏻 主播 Ronghui:供职于科技 VC,前《第一财经周刊》驻硅谷记者,Ronghui 的即刻[5]
参考资料
[1] Luma.ai: http://luma.ai/
[2] Vozo: https://www.vozo.ai/
[3] Koji 的即刻: https://okjk.co/0JSUes
[4] Koji 的网站: https://koji.super.site/
[5] Ronghui 的即刻: https://okjk.co/0cbnYV