我的语文是李白教的

李白是如何被“复活”的？

复活后的李白拥有哪些超能力？

通义李白数字人技术解读

为了“复活”李白，通义整合了多项数字人相关技术能力，基于一张照片实现了数字人的实时驱动生成。

脑、面、眼、嘴、声、身，李白数字人背后用到了通义 6 项能力。

李白的“大脑”保障 Qwen大模型

写诗、对诗、讲故事......如何让数字人李白秒懂你的指令？通义采用了大语言模型 Qwen，Qwen 在视觉智能、自然语言理解和音频理解方面有强大能力，当你下达一个指令后，李白能够快速判断你的需求，并进行实时反馈，比如为你做藏头诗，或者为你跳支舞。

李白面部表现 EMO

如何让李白的面部表情跟随对话内容自然展现？我们采用了 EMO（Emote Portrait Alive）模型能力，区别于传统的 Talking Head 技术，EMO 采用“弱控制设计”，着重考虑整个面部的联合运动，最大化地保留模型创造能力，眨眼、大笑、叹气......让李白的面部表情更丰富，更自然。

李白肢体表现 Animate Anyone

只需要一张李白的照片，便可以生成对应的动作，让数字人李白跳舞？为了使李白的肢体表现力更强，我们采用强控制方法，用一个针对于人体建模的骨架来驱动李白的动作，此前风靡的“全民舞王”，也是基于同样的技术路径。

李白声音情感表达 CosyVoice

不用于传统数字人的声音表现，我们也对李白的声音去 AI 味，让对话更有情感。我们使用了 CosyVoice 技术，是基于海量数据训练的生成式语音大模型，能够实现1-3 句话的声音克隆，该模型的语音情感生成能力也相当突出，感兴趣可以进入 App 和李白连线体验。

李白实时对话能力 VideoRetalking

我们使用了 VideoRetalking技术，能让李白和你实时对话，并且可以根据音频自动匹配嘴形。

未来上线 Vision- Language（VL）

未来，视觉理解模型 VL 技术也会被应用在李白数字人上，VL 具备图像视频多语言理解能力，在零样本图像描述、通用视觉问答等多个方面的测试中都获得了SOTA，更具有优势。上线后，你只需要打开摄像头，便可以和李白进行穿越古今的对话。

现阶段，李白数字人已上线，小编也在第一时间发起了对诗挑战，虽然......惜败，查看挑战记录 ⬇️

想和李白在线 Battle 吗？想听李白讲自己的风流韵事吗？还是想听李白唱歌，看李白跳舞，赶快下载通义 App 进入工具，搜索李白体验吧～

? 「通义创作者」征集活动 ?

在小红书/抖音分享你的创意，并带话题 #通义 AIGC、 #通义，最高赢 200 元现金激励+200 元推流奖励。

活动时间：9月9日-9月17日

创作方向：

?用通义万相，AI 描绘中秋；

?用李白智能体，对话李白数字人，和古人吟诗作对；

?用AI PPT 做一份中秋活动方案；

其他使用通义产品创作和中秋主题有关系的内容。

添加企业微信通义小助理，并将内容链接发送给小助理

备注：若未及时发送链接导致平台统计遗漏的内容，后续无法追加！！

推荐阅读

通义内部40条Prompt流出，快收藏！

通义上线AI创作 PPT，解决你的职场 PPTSD

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签