AI大模型工场 2024年10月21日
“携程问道”问不明白道
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

携程问道,一个号称基于AI大模型的旅游规划工具,却在实际体验中暴露了诸多问题,充斥着AI幻觉和奇技淫巧,并未真正实现AI旅游的愿景。文章分析了携程问道的AI旅游规划功能,指出其在提供个性化行程、理解复杂用户需求以及提供精准服务方面存在不足,并探讨了目前AI旅游大模型面临的挑战以及未来发展方向。

🤔 携程问道目前还无法成为AI Agent,因为它无法提供符合用户喜好的专属行程,也无法理解用户对“local”体验的需求,例如推荐有品位的精酿吧或演绎水平高的剧本杀店。

🤯 携程问道存在明显的AI幻觉问题,例如在行程规划中,无法提供完整行程,且在回答用户关于景点特色的问题时,重复了之前的行程推荐,无法理解用户的意图。

📊 携程问道提供的“携程口碑榜”,虽然利用了携程积累的数据和榜单,但缺乏个性化推荐,且榜单的评定标准和执行规则存在争议,与大众点评的必吃榜、必玩榜并没有明显差异。

💡 目前AI旅游大模型面临的挑战是,AI幻觉问题难以解决,需要通过微调形成行业专用的深模型。同时,AI Agent需要具备更强的推理和事实核查能力,才能真正实现基于用户目标的个性化推荐。

🧑‍💻 未来AI旅游大模型的发展方向是,需要培养Flow Engineer一类角色,他们需要兼具产品和编程思维能力,才能设计出真正可用的AI Agent。

Tniniuo 2024-10-21 12:23 北京

携程问道充斥着AI幻觉和奇技淫巧




作者|Tniniuo

编辑|蓝兰

媒体|闻旅



想靠AI旅游的朋友,终究还是没有在携程上问明白道。


我有个犟种朋友,喜欢各类科技花活,每次网上有新东西他都要试试。这个十一他要尝试的是靠旅游行业垂直大模型——携程问道,实现AI旅游。


我告诉他,AI旅游这事现在不靠谱。


整个大模型行业目前公认的事实是,AI大模型在发散性的内容上可能会超出预期,但在实际规划和落地的任务上,基本只能处于copilot的角色,人力还是主导。问吃喝、本地游玩、出规划,还不如大众点评、小红书高效。


甚至不如问我。


因为用户在所谓的靠AI旅游这件事上,需要的是一个AI Agent(AI智能体/助理/助手)。而AI Agent要求的是精确性,但目前AI大模型的发散性大于精确性,因此AI旅游在当下还是一个悖论。


比如说想在上海玩,AI会搜索历史数据和信息,告诉你外滩、石库门、武康路、东方明珠、豫园、淮海路你都值得逛逛。但如果需要一个符合自己喜好的专属行程,AI提供不了。你只能在AI提供的信息资料里做二次的人工筛选。


如果你想玩的更local一点,比如想找一家有品位的精酿吧,演绎水平高的剧本杀店,小姐姐多套路少的夜店,AI更推荐不出来。也就是说,携程问道目前成不了AI Agent。


但显然,我的犟种朋友不想听我哔哔赖赖。


于是我们直接进入测试,让携程问道出一个10月2号—10月6号在上海的行程规划。结果携程问道只帮我们把行程规划到了10月4号,10月5号和10月6号的行程它让我们自己发挥。嗯......我上一个00后实习生,是领导家亲戚,也差不多是这个味儿。



我们又问了下武康路到底有点什么独特魅力,究竟能玩点啥?得出的结论是Citywalk。然后我们告诉携程问道,如果不想在上海Citywalk,是否有更好的行程推荐。



结果携程问道把之前推给我们的行程又重复了一遍。


好吧,黔驴技穷。


最后我们告诉携程问道,想住在中山公园附近,让他推荐几家酒店。可能由于没有精确的告诉它是上海中山公园,所以携程问道给我推荐了天南地北,各个地方中山公园附近的酒店。这就很迷,咱们和携程问道聊了半天,不一直都在聊上海旅游的事么?这点前后文语义的识别也这么困难么?



大模型行业里有个词叫“AI幻觉”,即人工智能系统(自然语言处理模型)生成的内容与真实数据不符,或偏离用户指令的现象。


说白了就是,用户问前门楼子,AI答胯骨轴子。


短短三四个问题,我们看到携程问道一直沉浸在AI幻觉中,离需要准确性的AI Agent还有不少距离。诚然,造成AI幻觉的的原因有很多,从数据质量差到算法缺陷,再到缺乏接地和过度拟合,都会导致AI幻觉。


然而,所有这些原因的核心是:AI 模型的输出取决于它们的输入,或它们为处理所述输入而设计的方式。归根结底,AI 模型无法自我推理、研究或事实核查。因此,需要准确性的AI Agent,在当下还无法完美实现。


理想状态下的AI Agent是,大多数时候你只需给它一个最终你想要达成的目标,它能直接交付结果,过程你啥都不用管。


康奈尔大学、华盛顿大学和滑铁卢大学以及非营利研究机构AI2的研究人员,最近进行了一项研究,测试了GPT-4o、Meta的Llama370B、Mistral的Mixtral 8x22B、Cohere的Command R+,以及调用API的模型,比如Perplexity的Sonar Large(基于Llama)、Google的Gemini 1.5 Pro和 Anthropic的Claude 3 Opus等多个开源模型,


实验证明,各家模型产生的AI幻觉半斤八两。在答案来源不是维基百科的情况下,每个模型的平均回答事实性都较低。当然,从另一个维度看,没有AI幻觉,大模型就没有发展可言。


但在目前这种AI幻觉泛滥的环境下,用户想要一个规划行程的Agent,或是某个行业的最新资讯和报告,幻觉就是致命缺陷。很明显在这种情况下,以AI Agent为目标的AI旅游大模型,目前基本都是悖论。最多只是一个网络素材整合工具。


这种窘态不止出现在携程问道身上。字节的豆包、百度的文心一言等等,在AI旅游的表现上都挺一般。尤其是在理解复杂用户需求和提供精准个性化服务方面。要么行程过于空洞,不知无谓。要么AI幻觉爆发,自己加戏太多,甚至一些AI模型连门票价格都会报错。



目前行业的共识是,基于大模型的发散性产生的AI幻觉是没法解决的,所以必须要通过恰当的微调形成行业专用的深模型。但当下,即使在ChatGpt的GPTs应用或是字节的Coze平台,也很少有真正可用的,更好解决问题的Agent。


如果AI Agent无法基于用户目标形成个性化推荐,AI旅游大模型又当如何?携程问道目前在这上面抖了一个小聪明,即提供了一个涵盖酒店、景点、餐饮及夜生活等多维度的“携程口碑榜”,供用户出游参考。


也就是携程集团联合创始人梁建章所谓的:利用携程自己长年积累的数据和榜单,为用户做推荐。直白点说就是,这些东西携程的用户玩了都说好,相信你也会觉得好。至于个性化,暂且不聊。


比如,我们问“上海最好的酒店是哪家?”


携程问道基于“上海豪华酒店榜”得出结论,前滩香格里拉大酒店是上海最好的酒店。



略让人惊讶,因为这酒店我住过。不差,只不过马桶有点智能了,智能到半夜会自己工作。很卷,但瑕不掩瑜。可要说在一众奢华酒店云集的上海,前滩香格里拉是TOP1,这个确实有点出乎意料。


于是我让他问问这个“上海豪华酒店榜”是什么机构评定的,基于什么标准评定的?结果得出了一个比较好笑的结论。



实际上这个“上海豪华酒店榜”,就是携程自己推出的“携程口碑榜”其中一部分,会根据口碑、销量等几个维度来筛选,还有一些下榜规则。不过携程点评现在避免不了人工干预成分在,且目前来看,下榜规则执行的也并不严格。



比如9月份刚被曝出来“1天2次6700元”事件的长春高新益田福朋喜来登,目前仍在“长春豪华酒店榜”名列第14,并没有下榜。


实际上在整个AI服务流程中,携程并没有体现出来其所谓的,“通用AI大模型所没有的旅游产品资源库优势”。这份“携程口碑榜”也从一开始就弥漫着一股浓郁的商业气息,看不出与大众点评必吃榜、必玩榜有什么明显的产品差异。


换句话说,即便今天没有AI大模型,也不影响携程推出一份“携程口碑榜”。两者之间没有任何因果关系,以及强关联性。


事实上,对于AI旅游大模型来说,真的可用的Agent一定不是简单模块组合可实现的,如果有,也只是昙花一现。AI大模型催生了Prompt Engineer的工作角色,AI Agent理应催生Flow Engineer一类岗位,需要一批兼具产品和编程思维能力的角色。


但在携程的公开招聘中,目前没有看到明显具有Flow Engineer性质的岗位。


而在所有可公开查询到的信息中,携程距离AI Agent最近的一次,则是今年二季度财报的时候,携程集团联合创始人、董事局主席梁建章,CEO孙洁、CFO王肖璠等公司高管,首次以AI Agent形象,在财报会议上与投资人交流。


但很明显,此AI Agent并非AI大模型行业的AI Agent,说穿了不过是类似数字人的奇技淫巧。


AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。



数据支持天眼查,大模型独家合作账号


— END —


监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field


  


大模型应用创业者,你怎么看


■ 百度文心一言,阿里通义千问   ▍通用大模型案例

 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例



上次介绍一周找了五个情感陪伴AI产品聊天,我感到更空虚寂寞了?





本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI旅游 携程问道 AI幻觉 AI Agent 大模型
相关文章