夕小瑶科技说 01月25日
过年了,百度整活会讲方言的34 省智能体,这波语音技术太顶了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

百度文心智能体平台推出“34省智能体”,以地道方言语音为特色,为用户提供个性化服务。这些智能体不仅能用方言交流,还能提供旅游攻略等实用信息。用户可通过定制声音,增强与AI的情感连接。百度利用语音大数据挖掘和方言迁移合成技术,实现了34种方言的快速生成,并将其应用于有声书、数字人直播等场景。这背后是百度在AI语音领域的深厚技术积累。语音模态将成为未来AI竞争的关键,百度已为此做好准备。

🗣️ 百度文心智能体平台推出34省方言智能体,用户可通过百度App搜索体验,这些智能体不仅能说地道方言,还可提供旅游攻略等服务。

🧳 以香港旅游攻略为例,智能体“港姐”能根据家庭成员的不同需求,如姥姥的广场舞、妈妈的购物、爸爸的历史游以及用户的休闲需求,提供个性化的旅游建议,还能直接购买门票,实现一站式服务。

🎨 百度AI语音技术支持用户定制AI声音,包括方言,这能有效拉近用户与AI之间的情感距离。技术上,百度通过语音大数据挖掘和方言迁移合成技术,实现了34种方言的快速生成和应用。

🎤 百度语音技术还应用于数字人直播、有声小说等领域,通过语音大模型迁移技术、篇章段落合成技术、文本韵律增强技术,大大提升了虚拟主播声音的自然度和流畅性,降低了有声书的制作成本。

🚀 语音模态将成为2025年AI竞争的焦点,百度在语音技术领域的深厚积累,使其在未来的竞争中占据有利地位。

原创 夕小瑶编辑部 2025-01-25 17:27 新加坡

这次春节整了个大的啊!

今年过年真的太热闹了,国内 AI 明星厂商的大模型产品串烧到停不下来。

这不,今天又蹲到了!

百度文心智能体平台搞活出了会讲方言的语音系列 AI,统称为「34 省智能体」。

方言味儿真是太正了,先放一段青海的你们感受下:

人还没到青海呢,但通过这个青海的语音智能体已经感受到一丝当地的气息了。

我贴下路径,手快的小伙伴可以同步玩:

在百度 App 搜索「春节智能体」或者「AI 旅游」,点击「智能体会说方言啦」即可找到对应的省市的方言 AI。

我数了下,已经足足有 34 个省了。

这些省市智能体的一大用处,就是可以帮你做该省市的旅游攻略——

我把这事儿分享给公司的男同事后,他顿时来了兴趣。

他说他正好打算年后去香港旅游,由于家里情况复杂,正处于攻略焦虑期。

我问,有多复杂?

回答三个字:家庭游,外加一只猫

懂了。

这事儿,经历过的都头大。每个人的诉求都不一致,要协调诉求 + 满足预算 + 时间的限制,就活脱脱的把一个娱乐问题变成一个信息检索 + 复杂推理任务了。

这个艰巨的任务,肯定就落在了家里的最忙的那个人身上,也就是男同事了,因为全家数他学历最高。

他说要试试,我就让他试试。

没想到,擅长香港旅游攻略的智能体是港姐,长这样:

我见他的两眼突然开始放光,我担心他再像上次一样翻车,赶紧提醒了一句,“别忘了你是来找她做旅游攻略的”。

他赶紧说好好好,然后就给「港姐」打电话去了——

字幕:

男同事:

港姐啊,我最近恋爱了。我想趁着过年呢,带着她跟我们全家一块去香港玩。但是一家子去呢,我就特别头疼。你看,像我姥姥她就是喜欢跳广场舞,她这次呢,就非要去香港去跳一跳。我妈呢,她肯定就是想到处买买买,那肯定就得去一些能发朋友圈的一些高级商场。我爸呢,他就比较喜欢历史,他想去一些比较有代表性的历史建筑啊或者说是去街道去转一转。我呢,就是想,哦对了,还有一只猫,然后呢,就是想跟着我的宝贝还有我的猫,一块去找个沙滩去晒晒太阳。你看能不能给我推荐一些去处,满足刚才的要求。

港姐:

.... 1. 姥姥的广场舞 ?  ... 浅水湾就经常有一群来自东北的旅游团在那里开心地跳着广场舞,姥姥一定会喜欢的!... 2. 妈妈的购物天堂 ?️ ... 海港城有各种奢侈品牌,时代广场则更适合年轻人...3. 爸爸的历史之旅 ?️ ...香港故宫文化博物馆...另外,中环和油尖旺地区也有很多历史悠久的建筑和街道...4. 你的沙滩之旅 ?️ 想和猫咪一起晒太阳的话,可以去香港岛南端的浅水湾或者大浪湾...5. 全家的欢乐时光 ? ...迪士尼乐园或者海洋公园...

(原回答太详细了,此处仅保留关键信息)

如果你问我,为啥视频只截了 2 分钟 27 秒,因为从那之后,男同事就跟港姐聊别的去了,跟本文在讲的旅游攻略,就没啥关系了。

至于他俩后面在聊啥,就别在评论区问我了。

就旅游攻略这事儿来说,当你跟港姐聊完后,挂断电话,不仅能看到刚刚的聊天内容,而且聊天中提到的景点甚至关联的笔记都直接整理好了。

甚至,你都能直接在这里面把景点门票买了,俨然做成了一条龙服务。

这种生态层面的数据打通,对于“旅游搭子”这种生活类的智能体应用来说是非常重要的。

借着这个事儿,我深入玩了一下,发现还有一个很有用的功能——智能体定制

这个有啥用呢?

AI 不仅有功能价值,也会逐渐衍生出情绪价值。而人对那种能给自己提供情绪价值的事物,是有占有欲的。AI 也不例外。

声音,则是对 AI 的强辨识元素。

在百度文心智能体平台里,不止可以给AI选择声音,还能免费定制声音

而且,这个定制的声音,是可以识别方言的。

可别小看了这个方言功能。

很多人找对象,就是希望找本地的。ta 会觉得如果跟对象只能通过普通话交流,总会有些距离感。

对待 AI 也是同样的道理,一个会讲本地方言的 AI,会大大拉近与用户的心理距离。

而方言、定制等这些深入的语音能力,背后是百度的 AI 技术基因。

浅聊百度 AI 语音技术

现在各类会说方言的智能体、大模型产品并不少,但是一口气儿能说 34 省方言,百度可能还是第一个。

方言语音合成,最大的难点在于数据。

因为每一个地区的方言,都有它独特的发音系统、声调频率、词汇语法、肌肉运动方式,导致收集和构造方言训练数据是一件非常耗费人力和精力的事儿。

但是,百度这次能做到说出地道的34种方言,我肯定,一定不是一种方言一种方言的去攻克的。所以我去扒了一下它背后的技术。

一个是语音大数据挖掘技术,另一个是方言迁移合成技术。

语音大数据挖掘技术,你可以理解为是数据备菜师,对语音进行切分、降噪、识别等处理,全程自动化处理,大大缩短数据准备和研发的周期。

方言迁移合成技术,便是烹制方言的厨师了,创新性地将普通话和各类方言统一建模,基于大数据驱动利用迁移学习搞定了用任意音色说任意方言。

要知道在此前,不同方言的合成模型还做不到完全通用,这次把各种方言集成进统一建模框架,便是支撑起34种方言语音的核心之一。

所以一整套组合拳打下来,才能迅速地打造出这么多个极具地域特色的方言语音智能体。

这并不是短期能实现的。

早在 22 年的时候,在喜马拉雅 APP 里就上线了百度董事长兼 CEO 李彦宏的 AI 有声书《智能交通》,仅学习了李彦宏的 300 句公开音频,自动生成超 20 万字、高度还原本人的音频内容。

百度的语音技术团队一直是AI语音领域的业界翘楚,不仅有深厚的技术积累,还在积极赋能各种应用产品。比如这几年需求特别大的数字人直播。

主播的声音和节奏直接决定了直播带货的效果,百度语音团队则搭建了专门的带货风格的语音音库。

不需要专业的录音棚录制,通过语音大模型迁移技术、篇章段落合成技术、文本韵律增强技术,大大提升虚拟主播声音的自然度和流畅性。

此外,还有有声小说和车载场景

从文本理解、人物画像构建、对白情感分析到拟人语音合成,实现了完整的声学率建模,可以做到十余种情感的迁移和强弱控制,以及副语言(如大笑、冷哼等)的迁移控制,从小说文本到临场感有声书一套自动化生成流程,让真人有声书成本降低了一百倍不止。

在车载环境中,则把人脸唇动的视觉特征和语音统一建模,可以准确分离出主副驾的有效语音和交互意图。

2024年由文本大模型到多模态大模型,再到实时语音,2025年,纯粹的文本对话显然已经满足不了用户的期待了。可以确信的是,语音模态一定会成为25年AI争霸的重头戏。

在这场新的战争里,百度似乎早已做好了准备。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI智能体 方言语音 百度AI 语音技术 旅游攻略
相关文章