按照这个品味来说,京东还真是个好去处。因为京东能掰成两半:一半是个互联网电商公司;另一半是运行着庞大供应链、仓储、物流、客服的实体产业。两边加起来有几十万员工,上千种岗位,而且很多岗位是比较基础的体力和脑力劳动,特别适合 AI 来做嘛。真岗位,是说 AI 必须在生产活动中参与人类的一项或多项工作。(否则就是玩具嘛。)干真活,是说 AI 做这件工作(相同效果下)的成本必须低于人类。(否则就是作秀嘛。)
“搜推广引擎”的本质是把“查询需求”和“内容供给”在味道上匹配,把适合的内容展现给适合的人↓↓↓智能客服本质上是把“问题”和“解答”在味道上匹配,把适合的回答展现给适合的问题↓↓↓
比如我发给京东客服一张衣柜的照片,问还有没有其他类似款式的。人类客服可以轻易感知这张图里的内容和“衣柜”这两个字在意义空间里是对应的。首先,客服接收的询问可以是文字,但有可能是图片,也有可能是语音;其次,客服要去寻找的答案,也可能来自文字、图片、视频、音频杂糅的页面。
过去,你是个打工学徒,有顾客形容他想要一个什么口味的蛋糕,你只能尽量理解,然后从货架上选一款最贴合他描述的;
现在,经过十年苦练你成了糕点仙人,顾客说他想要什么口味,无论多么离奇,你都可以微微一笑,现场拿配料给他做一个。
她的脑海里正流淌着一句话:“这款空调双 11 的惊爆是 2699 元。”她发出的声音,就是这句话的中文发音。她使用的语气,必须是和这句话意义相匹配的(此处也许要神秘的、激动的);她的嘴型,也必须和这句话的发音相匹配;她的表情、手势也都必须和这句话揭晓价格的情绪相匹配;
从一开始,完全看不出和人有什么关系的专用 AI 系统,到后来意义配料逐渐增多,模态逐渐堆垒,一个人的雏形就这样浮现,这才是技术进步最浪漫的剧本。2013 年,他们在空间里为文字寻找意义配料,诞生了千人千面的搜推广引擎;2018 年,他们开始把文字、图像、声音用同一种意义配料表示,诞生了 AI 情感客服;2023 年,他们开始用大模型精细的意义配料来调配不存在的东西,并且把文字、语音、动作等等更多的模态在用同一套意义配料对齐,于是才诞生了——“言犀数字人”。
她开门见山。“出戏”,其实是人类意识一个很玄妙的特性。某个说不清道不明的细节,就会让你意识到“哪里不对”,一旦意识到“哪里不对”以后,你就没办法再回到“对”的状态了。为了让数字人不出戏,团队工作的主要内容之一就是“看购物直播”。(怎么样,羡慕么?)当然,他们是专业的,只看,不买,除非忍不住。。。出乎我意料的是,他们大多时间居然看的是人类直播,而非数字人直播。他们是在“逆向思考”——人类主播做了一件事,让观众 DNA 动了,他们马上就拿小本本记下来。然后开始逼问自己,为啥主播干了这个我就觉得好呢?我家数字人能不能也干这个?技术一定有不完善的地方,主播被用户发现是个数字人也在所难免。但我们能做的是想尽办法让用户晚一点儿“出戏”。只要停留在数字人直播间更长时间,自然货卖得也会更好。
怎么能让一场带货直播像精彩的电影一样“全程无尿点”,这才是终极命题。而且这恐怕不是战略喝水、撩撩头发、看看手机就能解决的,甚至也不是对每个词句精细打磨能解决的。飞姐团队苦思冥想,发现了一个问题:有些主播长得不算美,说话口音还是塑料普通话,遣词造句也不用那么标准的语法,甚至语速也不均匀,但作为观众,就是觉得他/她是个人才,说话好听。。。虽然没完全想明白是个啥道理,但飞姐决定试试。她找到技术团队的算法总监老吴,提出了非分的要求:咱家数字人能不能多点儿“主播感”?老吴皱眉:“主播感是啥?”飞姐给他看视频。老吴推推眼镜:“可以试试。”团队直接把数字人的训练库从字正腔圆的模特天团升级到了金牌主播大军。一试吓一跳:AI 把这些人的特质都学习下来之后,数字人主播身上果然多了一些微妙的“人味儿”。飞姐决定顺着这个思路继续得寸进尺。“无尿点主播”不仅每句话说得让人爱听,更是在直播的“整体结构”上有精巧的设计。飞姐头顶突然亮了灯泡:“直播中的整体话术设计,也是可以被大模型学习的吗?”她又忐忑地找到技术团队。老吴推推眼镜:“可以再试试。”他们试着找来了各行各业的头部主播的大段直播视频,让大模型分析整场直播前后逻辑设计的奥秘。果然又吓一跳:数字人主播居然真的学会了一些直播套路,卖 3C 的时候说一套技术宅喜欢的嗑儿,卖衣服时又会说集美们爱听的词儿。“不出戏”,只是三颗星及格线,你起码不会把注意力抽离到屏幕以外的地方;接下来是“尿点少”,也就是四颗星,比如你即使憋尿也忍不住要看接下来会发生什么;如果“全程无尿点”,尿裤子也忍不住要看,那就接近五星好评了。
飞姐提醒我。人生下来没有任何能力,说话是训练出来的,开车也是训练出来的。三百六十行的专家,也都是经过训练才习得这个行业的工作模式。不仅如此,就连公认与“灵魂”最接近的情绪,快乐、悲伤、忧虑、愤怒,舔舌头代表迟疑、双臂交叉反应防御,也都是在和环境互动的过程中被训练,随之被刻在基因编码中的反射模式。话说,越是在人工智能领域深耕,人们越会同意一个大逆不道的“暴论”:机器没有灵魂,但人也没有灵魂——就没有灵魂。秉持这个判断的好处很多,但最重要的一个是:你可以心安理得地把数字人和人放在同一个高度去平视。其实,人也是被训练出来的。
如果把自己的工作仅仅看作是怎么让数字人主播的销量再提高 1%, 难免会觉得疲惫。如果把自己看作是一个在意义空间里冲杀的战士,赢得人工智能旷日持久的战争后,自己的名字会镌刻在人类文明的史诗中,你就会跨越搜索引擎、跨越 AI 客服,甚至跨越数字人,走向更远的地方。
在短剧《爱、死亡、机器人》中,有一集名为《齐马蓝》(Zima Blue)。一个旷世的艺术家齐马,以远超常人的激情创造了无数震撼诗人的艺术作品。他深居简出,从不与人对话。世人只知道,他为了更深地体会这个宇宙的真理,把自己的身体都改造成了机械。从某一天开始,在他的画作中,出现越来越多的蓝色的方块。这个颜色精准而动人,人们想尽一切办法理解其中深意,但终无所得,只好称之为“齐马蓝”。