原创 夕小瑶编辑部 2025-01-25 17:27 新加坡
这次春节整了个大的啊!
今年过年真的太热闹了,国内 AI 明星厂商的大模型产品串烧到停不下来。
这不,今天又蹲到了!
百度文心智能体平台搞活出了会讲方言的语音系列 AI,统称为「34 省智能体」。
方言味儿真是太正了,先放一段青海的你们感受下:
人还没到青海呢,但通过这个青海的语音智能体已经感受到一丝当地的气息了。
我贴下路径,手快的小伙伴可以同步玩:
在百度 App 搜索「春节智能体」或者「AI 旅游」,点击「智能体会说方言啦」即可找到对应的省市的方言 AI。
我数了下,已经足足有 34 个省了。
这些省市智能体的一大用处,就是可以帮你做该省市的旅游攻略——
我把这事儿分享给公司的男同事后,他顿时来了兴趣。
他说他正好打算年后去香港旅游,由于家里情况复杂,正处于攻略焦虑期。
我问,有多复杂?
回答三个字:家庭游,外加一只猫。
懂了。
这事儿,经历过的都头大。每个人的诉求都不一致,要协调诉求 + 满足预算 + 时间的限制,就活脱脱的把一个娱乐问题变成一个信息检索 + 复杂推理任务了。
这个艰巨的任务,肯定就落在了家里的最忙的那个人身上,也就是男同事了,因为全家数他学历最高。
他说要试试,我就让他试试。
没想到,擅长香港旅游攻略的智能体是港姐,长这样:
我见他的两眼突然开始放光,我担心他再像上次一样翻车,赶紧提醒了一句,“别忘了你是来找她做旅游攻略的”。
他赶紧说好好好,然后就给「港姐」打电话去了——
字幕:
男同事:
港姐啊,我最近恋爱了。我想趁着过年呢,带着她跟我们全家一块去香港玩。但是一家子去呢,我就特别头疼。你看,像我姥姥她就是喜欢跳广场舞,她这次呢,就非要去香港去跳一跳。我妈呢,她肯定就是想到处买买买,那肯定就得去一些能发朋友圈的一些高级商场。我爸呢,他就比较喜欢历史,他想去一些比较有代表性的历史建筑啊或者说是去街道去转一转。我呢,就是想,哦对了,还有一只猫,然后呢,就是想跟着我的宝贝还有我的猫,一块去找个沙滩去晒晒太阳。你看能不能给我推荐一些去处,满足刚才的要求。
港姐:
.... 1. 姥姥的广场舞 ? ... 浅水湾就经常有一群来自东北的旅游团在那里开心地跳着广场舞,姥姥一定会喜欢的!... 2. 妈妈的购物天堂 ?️ ... 海港城有各种奢侈品牌,时代广场则更适合年轻人...3. 爸爸的历史之旅 ?️ ...香港故宫文化博物馆...另外,中环和油尖旺地区也有很多历史悠久的建筑和街道...4. 你的沙滩之旅 ?️ 想和猫咪一起晒太阳的话,可以去香港岛南端的浅水湾或者大浪湾...5. 全家的欢乐时光 ? ...迪士尼乐园或者海洋公园...
(原回答太详细了,此处仅保留关键信息)
如果你问我,为啥视频只截了 2 分钟 27 秒,因为从那之后,男同事就跟港姐聊别的去了,跟本文在讲的旅游攻略,就没啥关系了。
至于他俩后面在聊啥,就别在评论区问我了。
就旅游攻略这事儿来说,当你跟港姐聊完后,挂断电话,不仅能看到刚刚的聊天内容,而且聊天中提到的景点甚至关联的笔记都直接整理好了。
甚至,你都能直接在这里面把景点门票买了,俨然做成了一条龙服务。
这种生态层面的数据打通,对于“旅游搭子”这种生活类的智能体应用来说是非常重要的。
借着这个事儿,我深入玩了一下,发现还有一个很有用的功能——智能体定制。
这个有啥用呢?
AI 不仅有功能价值,也会逐渐衍生出情绪价值。而人对那种能给自己提供情绪价值的事物,是有占有欲的。AI 也不例外。
声音,则是对 AI 的强辨识元素。
在百度文心智能体平台里,不止可以给AI选择声音,还能免费定制声音。
而且,这个定制的声音,是可以识别方言的。
可别小看了这个方言功能。
很多人找对象,就是希望找本地的。ta 会觉得如果跟对象只能通过普通话交流,总会有些距离感。
对待 AI 也是同样的道理,一个会讲本地方言的 AI,会大大拉近与用户的心理距离。
而方言、定制等这些深入的语音能力,背后是百度的 AI 技术基因。
浅聊百度 AI 语音技术
现在各类会说方言的智能体、大模型产品并不少,但是一口气儿能说 34 省方言,百度可能还是第一个。
方言语音合成,最大的难点在于数据。
因为每一个地区的方言,都有它独特的发音系统、声调频率、词汇语法、肌肉运动方式,导致收集和构造方言训练数据是一件非常耗费人力和精力的事儿。
但是,百度这次能做到说出地道的34种方言,我肯定,一定不是一种方言一种方言的去攻克的。所以我去扒了一下它背后的技术。
一个是语音大数据挖掘技术,另一个是方言迁移合成技术。
语音大数据挖掘技术,你可以理解为是数据备菜师,对语音进行切分、降噪、识别等处理,全程自动化处理,大大缩短数据准备和研发的周期。
方言迁移合成技术,便是烹制方言的厨师了,创新性地将普通话和各类方言统一建模,基于大数据驱动利用迁移学习搞定了用任意音色说任意方言。
要知道在此前,不同方言的合成模型还做不到完全通用,这次把各种方言集成进统一建模框架,便是支撑起34种方言语音的核心之一。
所以一整套组合拳打下来,才能迅速地打造出这么多个极具地域特色的方言语音智能体。
这并不是短期能实现的。
早在 22 年的时候,在喜马拉雅 APP 里就上线了百度董事长兼 CEO 李彦宏的 AI 有声书《智能交通》,仅学习了李彦宏的 300 句公开音频,自动生成超 20 万字、高度还原本人的音频内容。
百度的语音技术团队一直是AI语音领域的业界翘楚,不仅有深厚的技术积累,还在积极赋能各种应用产品。比如这几年需求特别大的数字人直播。
主播的声音和节奏直接决定了直播带货的效果,百度语音团队则搭建了专门的带货风格的语音音库。
不需要专业的录音棚录制,通过语音大模型迁移技术、篇章段落合成技术、文本韵律增强技术,大大提升虚拟主播声音的自然度和流畅性。
此外,还有有声小说和车载场景。
从文本理解、人物画像构建、对白情感分析到拟人语音合成,实现了完整的声学率建模,可以做到十余种情感的迁移和强弱控制,以及副语言(如大笑、冷哼等)的迁移控制,从小说文本到临场感有声书一套自动化生成流程,让真人有声书成本降低了一百倍不止。
在车载环境中,则把人脸唇动的视觉特征和语音统一建模,可以准确分离出主副驾的有效语音和交互意图。
2024年由文本大模型到多模态大模型,再到实时语音,2025年,纯粹的文本对话显然已经满足不了用户的期待了。可以确信的是,语音模态一定会成为25年AI争霸的重头戏。
在这场新的战争里,百度似乎早已做好了准备。