老罗数字人爆火背后，百度做对了什么？

原创特工小猹 2025-06-17 18:01 浙江

有形，更有神。

内容编辑丨特工小猹特工少女

内容审核丨特工小天

6 月 15 日，罗永浩的“数字人”再次开麦。这一次，他和“助播搭档”朱萧木的数字人一起出现在百度电商直播间，整整播了超过 6 个小时。

整场直播累计吸引了超过 1300 万人次观看，带货金额突破 5500 万元，部分品类的成交数据超过他 5 月真人直播时的表现。

更有意思的是，评论区很多人一开始都以为是视频录播。

对不少人来说，这场直播看起来更像一场再普通不过的“老罗式开麦”，甚至并没有意识到，它是由 AI 驱动完成的——从内容生成到动作控制，从语言节奏到表情调度，全部实时生成。

百度罗永浩数字人创纪录

在此前，大多数字人仍停留在低成本复用、标品类转化、脚本式互动的阶段：表情稍僵、语气带顿、回答靠关键词匹配，一旦脱离既定话术，就会陷入沉默或者尴尬回应。

相比之下，数字人老罗的动作、语调、表情生动活泼，“喝奶茶”“拎可乐”等细节自然切入；还能与直播间用户弹幕进行实时互动。

现场节奏与过往风格相似，互动中甚至保留了些许“朱罗互怼”的熟悉感。他接梗、讲段子喝水，仍旧不乏即兴反应。有观众问“这面膜脸大能敷吗”，他回：“脸大能有多大？能有我 210 斤的脸大吗？我也就用一张就够了。”

据悉，这次直播还创下了两个“行业首次” ——

1. 行业首次实现多数字人同场直播，罗永浩与助播之间实现了自然插话、节奏呼应与即兴互动，展现出高度协同的 AI 对话能力。

2. 行业首次由头部主播以数字人形态完成整场直播带货，直播时长突破 6 小时。

还记得百度李彦宏在 4 月 25 日首次提出的“高说服力数字人”的概念时，他强调其为“最令人激动的应用之一”。

如今高说服力数字人在老罗上身上得到了验证，也确实令人感到激动和震惊。

那么，百度做对了什么？

为何能“神形音容”高度一致？文心 4.5T 作为核心支撑

首先在于「形」。

「形」包括外貌、肢体动作。看一个人先看他的外貌，数字人最基本就是在外貌和动作上复刻的生动。

得益于视觉大模型的全面升级，百度在视频方面进行高表现力动作对齐，包括支撑唇动、表情生成和对齐。实现了老罗数字人各种神态的高一致性，表现力达到了「形」似的统一。

其次在于「音」。

「音」包括音色、语调和语气。人与人直接的交互是视听结合的。外表长得一样还不够，听起来还得足够逼真。

基于百度语音大模型，以及多模态融合生成技术的进步，包括动作、表情、语调等模态贴合话术等方面。在声音维度上，百度使数字人语音在语调、情绪与表达上更自然流畅、富有感染力。

最终于更在于「神」。

「神」包括一个人的说话风格，语言习惯，这塑造了人的内核灵魂。

为什么数字人老罗的「神」能这么像老罗本人？这其中关键的技术就是剧本生成。

无论是直播还是内容创作，数字人的首要能力在于“会说话”——核心即台词生成。台词不仅要拟合人设、富有吸引力，还需具备多样化的表达风格，这背后依赖于风格建模、个性定制与高质量生成的协同支撑。

在这场直播过程中，AI 充分学习并表现了老罗的台词剧本风格，其中调用了知识库 1.3 万次，生成 9.7 万字剧本式产品讲解内容，双数字人搭档做出超 8300 个动作。

管中窥豹，可见一斑。

“神似”的背后，是百度基于最新的模型文心 4.5T，通过深度训练，让数字人做到了“懂创作”和“有个性”。

这相当于百度为数字人嵌入具备内容理解和节奏控制能力的 AI 大脑，“主动邀评”让数字人主播主动引导用户互动；在遇到复杂提问时，数字人可以做到“同时回复”，高效处理多线程互动，并结合了剧本驱动模式与多智能体协同机制，还原出老罗风趣幽默的人格风格表达。

实现了比如观众问“孩子吃了鸡蛋会变聪明吗”，他会回复：

“哪有什么会不会变聪明，我现在跟你说吃了鸡蛋会聪明，到时候孩子考差了，你就要找我麻烦了。如果大家吃完鸡蛋都能聪明，那就天天去吃鸡蛋好了。”

老罗的这些回答不是“播台词”，而是带有判断力、个性幽默与自我感知的即兴互动——这恰恰是“人”的关键特征。而剧本系统恰好在这里达到了一个技术边界突破点：不是让数字人模仿人类语言，而是重建语言人格的那个「神」。

形、音、神三位一体，实现的不是只做一个“像人”的壳，而是构建一个具备表达力、自我风格、内容理解与交互能力的“智能体”。

帷幕拉下，数字人的下一站通向哪里？

这场直播能打出高 GMV，并非因为观众本就打算购物。真正起作用的，是一次从围观到信任的心理转变。

最初，大家是“来看 AI 表演的”；后来，很多人却“留下来看老罗说话”。看了一会能发现，观众的反馈其实大都不是“AI 好强”，而是：“这就是老罗吧？”

......

不是所有人都能像老罗一样侃侃而谈，但数字人可以学会像你一样说话。

试想一下，如果有更多像老罗这样的高说服力数字人出现代替大家直播，会发生什么？

它可以是一个小商家的门店前台，讲述自家产品的故事；也可以是一个医生助手，在科普疾病时保留语气的温和与坚定；还可以是教育场景中的知识表达者——根据学生学习节奏、实时反应，用不同的语气与讲法讲同一个知识点甚至可以是一个企业创始人的“第二人格”，24 小时在线阐述理念、对话客户、传递品牌风格。

而百度慧播星支持的“一键开播”功能，让人人都能用数字人做主播这件事情已经成为现实。

数字人不会疲惫、不会心情波动、不怕重复提问。你不必总是出现，但“你”始终在场。

这正是人类在很多岗位上难以长期维持标准化，而数字人恰恰擅长在“标准化中做到人格化”。

也许未来，真正重要的不再是“这个数字人是谁”，而是我们正在从“真人生产内容”进入“人格生产内容”的时代。

数字人老罗的直播，可能就是这个时代开始的帷幕。

-- 推荐阅读 --

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签