李白是如何被“复活”的?
复活后的李白拥有哪些超能力?
通义李白数字人技术解读
为了“复活”李白,通义整合了多项数字人相关技术能力,基于一张照片实现了数字人的实时驱动生成。
脑、面、眼、嘴、声、身,李白数字人背后用到了通义 6 项能力。
01
李白的“大脑”保障 Qwen大模型
写诗、对诗、讲故事......如何让数字人李白秒懂你的指令?通义采用了大语言模型 Qwen,Qwen 在视觉智能、自然语言理解和音频理解方面有强大能力,当你下达一个指令后,李白能够快速判断你的需求,并进行实时反馈,比如为你做藏头诗,或者为你跳支舞。
02
李白面部表现 EMO
如何让李白的面部表情跟随对话内容自然展现?我们采用了 EMO(Emote Portrait Alive) 模型能力,区别于传统的 Talking Head 技术,EMO 采用“弱控制设计”,着重考虑整个面部的联合运动,最大化地保留模型创造能力,眨眼、大笑、叹气......让李白的面部表情更丰富,更自然。
03
李白肢体表现 Animate Anyone
只需要一张李白的照片,便可以生成对应的动作,让数字人李白跳舞?为了使李白的肢体表现力更强,我们采用强控制方法,用一个针对于人体建模的骨架来驱动李白的动作,此前风靡的“全民舞王”,也是基于同样的技术路径。
04
李白声音情感表达 CosyVoice
不用于传统数字人的声音表现,我们也对李白的声音去 AI 味,让对话更有情感。我们使用了 CosyVoice 技术,是基于海量数据训练的生成式语音大模型,能够实现1-3 句话的声音克隆,该模型的语音情感生成能力也相当突出,感兴趣可以进入 App 和李白连线体验。
05
李白实时对话能力 VideoRetalking
我们使用了 VideoRetalking技术,能让李白和你实时对话,并且可以根据音频自动匹配嘴形。06
未来上线 Vision- Language(VL)
未来,视觉理解模型 VL 技术也会被应用在李白数字人上,VL 具备图像视频多语言理解能力,在零样本图像描述、通用视觉问答等多个方面的测试中都获得了SOTA,更具有优势。上线后,你只需要打开摄像头,便可以和李白进行穿越古今的对话。
现阶段,李白数字人已上线,小编也在第一时间发起了对诗挑战,虽然......惜败,查看挑战记录 ⬇️
想和李白在线 Battle 吗?想听李白讲自己的风流韵事吗?还是想听李白唱歌,看李白跳舞,赶快下载通义 App 进入工具,搜索李白体验吧~
? 「通义创作者」征集活动 ?
在小红书/抖音分享你的创意,并带话题 #通义 AIGC、 #通义,最高赢 200 元现金激励+200 元推流奖励。
活动时间:9月9日-9月17日
创作方向:
?用通义万相,AI 描绘中秋;
?用李白智能体,对话李白数字人,和古人吟诗作对;
?用AI PPT 做一份中秋活动方案;
其他使用通义产品创作和中秋主题有关系的内容。
添加企业微信通义小助理,并将内容链接发送给小助理
备注:若未及时发送链接导致平台统计遗漏的内容,后续无法追加!!
推荐阅读