特工宇宙 12小时前
老罗数字人爆火背后,百度做对了什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

罗永浩的数字人直播在百度电商平台大获成功,吸引了超过1300万人次观看,带货金额突破5500万元,甚至部分品类成交额超越了真人直播。这场直播展示了AI驱动的数字人技术在内容生成、动作控制、语言节奏和表情调度方面的突破,实现了与观众的实时互动,并展现了老罗独特的个人风格。文章深入探讨了百度数字人成功的关键技术,如视觉大模型、语音大模型和剧本生成,预示着从“真人生产内容”到“人格生产内容”的时代转变。

🤖 百度数字人老罗直播实现了高度的“神形音容”一致性。通过视觉大模型、语音大模型和剧本生成等核心技术,数字人不仅在外貌和动作上模仿了老罗,还在语调、语气和说话风格上高度还原,甚至能够进行即兴互动。

🗣️ 剧本生成技术是数字人“神似”老罗的关键。AI学习并表现了老罗的台词剧本风格,调用知识库1.3万次,生成9.7万字剧本式产品讲解内容,双数字人搭档做出超8300个动作,展现了AI的内容理解和节奏控制能力。

💡 此次直播标志着从“真人生产内容”到“人格生产内容”的转变。数字人可以24小时在线,传递品牌风格,实现标准化与人格化的统一。百度慧播星的“一键开播”功能,使得人人都能用数字人做主播成为可能。

原创 特工小猹 2025-06-17 18:01 浙江

有形,更有神。

内容编辑丨特工小猹 特工少女

内容审核丨特工小天

6 月 15 日,罗永浩的“数字人”再次开麦。这一次,他和“助播搭档”朱萧木的数字人一起出现在百度电商直播间,整整播了超过 6 个小时。

整场直播累计吸引了超过 1300 万人次观看,带货金额突破 5500 万元,部分品类的成交数据超过他 5 月真人直播时的表现。

更有意思的是,评论区很多人一开始都以为是视频录播。

对不少人来说,这场直播看起来更像一场再普通不过的“老罗式开麦”,甚至并没有意识到,它是由 AI 驱动完成的——从内容生成到动作控制,从语言节奏到表情调度,全部实时生成。

百度罗永浩数字人创纪录

在此前,大多数字人仍停留在低成本复用、标品类转化、脚本式互动的阶段:表情稍僵、语气带顿、回答靠关键词匹配,一旦脱离既定话术,就会陷入沉默或者尴尬回应。

相比之下,数字人老罗的动作、语调、表情生动活泼,“喝奶茶”“拎可乐”等细节自然切入;还能与直播间用户弹幕进行实时互动。

现场节奏与过往风格相似,互动中甚至保留了些许“朱罗互怼”的熟悉感。他接梗、讲段子喝水,仍旧不乏即兴反应。有观众问“这面膜脸大能敷吗”,他回:“脸大能有多大?能有我 210 斤的脸大吗?我也就用一张就够了。”

据悉,这次直播还创下了两个“行业首次” ——

1. 行业首次实现多数字人同场直播,罗永浩与助播之间实现了自然插话、节奏呼应与即兴互动,展现出高度协同的 AI 对话能力。

2. 行业首次由头部主播以数字人形态完成整场直播带货,直播时长突破 6 小时。

还记得百度李彦宏在 月 25 日首次提出的“高说服力数字人”的概念时,他强调其为“最令人激动的应用之一”。

如今高说服力数字人在老罗上身上得到了验证,也确实令人感到激动和震惊。

那么,百度做对了什么?

为何能“神形音”高度一致?文心 4.5T 作为核心支撑

首先在于「形」。

「形」包括外貌、肢体动作。看一个人先看他的外貌,数字人最基本就是在外貌和动作上复刻的生动。

得益于视觉大模型的全面升级,百度在视频方面进行高表现力动作对齐,包括支撑唇动、表情生成和对齐。实现了老罗数字人各种神态的高一致性,表现力达到了「形」似的统一。

其次在于「音」。

「音」包括音色、语调和语气。人与人直接的交互是视听结合的。外表长得一样还不够,听起来还得足够逼真。

基于百度语音大模型,以及多模态融合生成技术的进步,包括动作、表情、语调等模态贴合话术等方面。在声音维度上,百度使数字人语音在语调、情绪与表达上更自然流畅、富有感染力。

最终于更在于「神」。

「神」包括一个人的说话风格,语言习惯,这塑造了人的内核灵魂。

为什么数字人老罗的「神」能这么像老罗本人?这其中关键的技术就是剧本生成。

无论是直播还是内容创作,数字人的首要能力在于“会说话”——核心即台词生成。台词不仅要拟合人设、富有吸引力,还需具备多样化的表达风格,这背后依赖于风格建模、个性定制与高质量生成的协同支撑。

在这场直播过程中,AI 充分学习并表现了老罗的台词剧本风格,其中调用了知识库 1.3 万次,生成 9.7 万字剧本式产品讲解内容,双数字人搭档做出超 8300 个动作。

管中窥豹,可见一斑。

“神似”的背后,是百度基于最新的模型文心 4.5T,通过深度训练,让数字人做到了“懂创作”和“有个性”。

这相当于百度为数字人嵌入具备内容理解和节奏控制能力的 AI 大脑,“主动邀评”让数字人主播主动引导用户互动;在遇到复杂提问时,数字人可以做到“同时回复”,高效处理多线程互动,并结合了剧本驱动模式与多智能体协同机制,还原出老罗风趣幽默的人格风格表达。

实现了比如观众问“孩子吃了鸡蛋会变聪明吗”,他会回复:

“哪有什么会不会变聪明,我现在跟你说吃了鸡蛋会聪明,到时候孩子考差了,你就要找我麻烦了。如果大家吃完鸡蛋都能聪明,那就天天去吃鸡蛋好了。”

老罗的这些回答不是“播台词”,而是带有判断力、个性幽默与自我感知的即兴互动——这恰恰是“人”的关键特征。而剧本系统恰好在这里达到了一个技术边界突破点:不是让数字人模仿人类语言,而是重建语言人格的那个「神」。

形、音、神三位一体,实现的不是只做一个“像人”的壳,而是构建一个具备表达力、自我风格、内容理解与交互能力的“智能体”

帷幕拉下,数字人的下一站通向哪里?

这场直播能打出高 GMV,并非因为观众本就打算购物。真正起作用的,是一次从围观到信任的心理转变。

最初,大家是“来看 AI 表演的”;后来,很多人却“留下来看老罗说话”。看了一会能发现,观众的反馈其实大都不是“AI 好强”,而是:“这就是老罗吧?”

......

不是所有人都能像老罗一样侃侃而谈,但数字人可以学会像你一样说话。

试想一下,如果有更多像老罗这样的高说服力数字人出现代替大家直播,会发生什么?

它可以是一个小商家的门店前台,讲述自家产品的故事;也可以是一个医生助手,在科普疾病时保留语气的温和与坚定;还可以是教育场景中的知识表达者——根据学生学习节奏、实时反应,用不同的语气与讲法讲同一个知识点甚至可以是一个企业创始人的“第二人格”,24 小时在线阐述理念、对话客户、传递品牌风格。

而百度慧播星支持的“一键开播”功能,让人人都能用数字人做主播这件事情已经成为现实。

数字人不会疲惫、不会心情波动、不怕重复提问。你不必总是出现,但“你”始终在场。

这正是人类在很多岗位上难以长期维持标准化,而数字人恰恰擅长在“标准化中做到人格化”。

也许未来,真正重要的不再是“这个数字人是谁”,而是我们正在从“真人生产内容”进入“人格生产内容”的时代。

数字人老罗的直播,可能就是这个时代开始的帷幕。

-- 推荐阅读 --

图片

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

数字人 AI直播 罗永浩 百度 内容生产
相关文章