“携程问道”问不明白道

Tniniuo 2024-10-21 12:23 北京

携程问道充斥着AI幻觉和奇技淫巧

作者｜Tniniuo

编辑｜蓝兰

媒体｜闻旅

想靠AI旅游的朋友，终究还是没有在携程上问明白道。

我有个犟种朋友，喜欢各类科技花活，每次网上有新东西他都要试试。这个十一他要尝试的是靠旅游行业垂直大模型——携程问道，实现AI旅游。

我告诉他，AI旅游这事现在不靠谱。

整个大模型行业目前公认的事实是，AI大模型在发散性的内容上可能会超出预期，但在实际规划和落地的任务上，基本只能处于copilot的角色，人力还是主导。问吃喝、本地游玩、出规划，还不如大众点评、小红书高效。

甚至不如问我。

因为用户在所谓的靠AI旅游这件事上，需要的是一个AI Agent（AI智能体/助理/助手）。而AI Agent要求的是精确性，但目前AI大模型的发散性大于精确性，因此AI旅游在当下还是一个悖论。

比如说想在上海玩，AI会搜索历史数据和信息，告诉你外滩、石库门、武康路、东方明珠、豫园、淮海路你都值得逛逛。但如果需要一个符合自己喜好的专属行程，AI提供不了。你只能在AI提供的信息资料里做二次的人工筛选。

如果你想玩的更local一点，比如想找一家有品位的精酿吧，演绎水平高的剧本杀店，小姐姐多套路少的夜店，AI更推荐不出来。也就是说，携程问道目前成不了AI Agent。

但显然，我的犟种朋友不想听我哔哔赖赖。

于是我们直接进入测试，让携程问道出一个10月2号—10月6号在上海的行程规划。结果携程问道只帮我们把行程规划到了10月4号，10月5号和10月6号的行程它让我们自己发挥。嗯......我上一个00后实习生，是领导家亲戚，也差不多是这个味儿。

我们又问了下武康路到底有点什么独特魅力，究竟能玩点啥？得出的结论是Citywalk。然后我们告诉携程问道，如果不想在上海Citywalk，是否有更好的行程推荐。

结果携程问道把之前推给我们的行程又重复了一遍。

好吧，黔驴技穷。

最后我们告诉携程问道，想住在中山公园附近，让他推荐几家酒店。可能由于没有精确的告诉它是上海中山公园，所以携程问道给我推荐了天南地北，各个地方中山公园附近的酒店。这就很迷，咱们和携程问道聊了半天，不一直都在聊上海旅游的事么？这点前后文语义的识别也这么困难么？

大模型行业里有个词叫“AI幻觉”，即人工智能系统（自然语言处理模型）生成的内容与真实数据不符，或偏离用户指令的现象。

说白了就是，用户问前门楼子，AI答胯骨轴子。

短短三四个问题，我们看到携程问道一直沉浸在AI幻觉中，离需要准确性的AI Agent还有不少距离。诚然，造成AI幻觉的的原因有很多，从数据质量差到算法缺陷，再到缺乏接地和过度拟合，都会导致AI幻觉。

然而，所有这些原因的核心是：AI 模型的输出取决于它们的输入，或它们为处理所述输入而设计的方式。归根结底，AI 模型无法自我推理、研究或事实核查。因此，需要准确性的AI Agent，在当下还无法完美实现。

理想状态下的AI Agent是，大多数时候你只需给它一个最终你想要达成的目标，它能直接交付结果，过程你啥都不用管。

康奈尔大学、华盛顿大学和滑铁卢大学以及非营利研究机构AI2的研究人员，最近进行了一项研究，测试了GPT-4o、Meta的Llama370B、Mistral的Mixtral 8x22B、Cohere的Command R+，以及调用API的模型，比如Perplexity的Sonar Large（基于Llama）、Google的Gemini 1.5 Pro和 Anthropic的Claude 3 Opus等多个开源模型，

实验证明，各家模型产生的AI幻觉半斤八两。在答案来源不是维基百科的情况下，每个模型的平均回答事实性都较低。当然，从另一个维度看，没有AI幻觉，大模型就没有发展可言。

但在目前这种AI幻觉泛滥的环境下，用户想要一个规划行程的Agent，或是某个行业的最新资讯和报告，幻觉就是致命缺陷。很明显在这种情况下，以AI Agent为目标的AI旅游大模型，目前基本都是悖论。最多只是一个网络素材整合工具。

这种窘态不止出现在携程问道身上。字节的豆包、百度的文心一言等等，在AI旅游的表现上都挺一般。尤其是在理解复杂用户需求和提供精准个性化服务方面。要么行程过于空洞，不知无谓。要么AI幻觉爆发，自己加戏太多，甚至一些AI模型连门票价格都会报错。

目前行业的共识是，基于大模型的发散性产生的AI幻觉是没法解决的，所以必须要通过恰当的微调形成行业专用的深模型。但当下，即使在ChatGpt的GPTs应用或是字节的Coze平台，也很少有真正可用的，更好解决问题的Agent。

如果AI Agent无法基于用户目标形成个性化推荐，AI旅游大模型又当如何？携程问道目前在这上面抖了一个小聪明，即提供了一个涵盖酒店、景点、餐饮及夜生活等多维度的“携程口碑榜”，供用户出游参考。

也就是携程集团联合创始人梁建章所谓的：利用携程自己长年积累的数据和榜单，为用户做推荐。直白点说就是，这些东西携程的用户玩了都说好，相信你也会觉得好。至于个性化，暂且不聊。

比如，我们问“上海最好的酒店是哪家？”

携程问道基于“上海豪华酒店榜”得出结论，前滩香格里拉大酒店是上海最好的酒店。

略让人惊讶，因为这酒店我住过。不差，只不过马桶有点智能了，智能到半夜会自己工作。很卷，但瑕不掩瑜。可要说在一众奢华酒店云集的上海，前滩香格里拉是TOP1，这个确实有点出乎意料。

于是我让他问问这个“上海豪华酒店榜”是什么机构评定的，基于什么标准评定的？结果得出了一个比较好笑的结论。

实际上这个“上海豪华酒店榜”，就是携程自己推出的“携程口碑榜”其中一部分，会根据口碑、销量等几个维度来筛选，还有一些下榜规则。不过携程点评现在避免不了人工干预成分在，且目前来看，下榜规则执行的也并不严格。

比如9月份刚被曝出来“1天2次6700元”事件的长春高新益田福朋喜来登，目前仍在“长春豪华酒店榜”名列第14，并没有下榜。

实际上在整个AI服务流程中，携程并没有体现出来其所谓的，“通用AI大模型所没有的旅游产品资源库优势”。这份“携程口碑榜”也从一开始就弥漫着一股浓郁的商业气息，看不出与大众点评必吃榜、必玩榜有什么明显的产品差异。

换句话说，即便今天没有AI大模型，也不影响携程推出一份“携程口碑榜”。两者之间没有任何因果关系，以及强关联性。

事实上，对于AI旅游大模型来说，真的可用的Agent一定不是简单模块组合可实现的，如果有，也只是昙花一现。AI大模型催生了Prompt Engineer的工作角色，AI Agent理应催生Flow Engineer一类岗位，需要一批兼具产品和编程思维能力的角色。

但在携程的公开招聘中，目前没有看到明显具有Flow Engineer性质的岗位。

而在所有可公开查询到的信息中，携程距离AI Agent最近的一次，则是今年二季度财报的时候，携程集团联合创始人、董事局主席梁建章，CEO孙洁、CFO王肖璠等公司高管，首次以AI Agent形象，在财报会议上与投资人交流。

但很明显，此AI Agent并非AI大模型行业的AI Agent，说穿了不过是类似数字人的奇技淫巧。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」，覆盖超1000位AIGC圈，百度大模型业务负责人，京东大模型业务负责人，腾讯大模型业务人，阿里云大模型技术负责人，科大讯飞大模型公关，商汤大模型业务，阅文大模型公关，360大模型公关负责人都在群里啦，欢迎大模型业务负责人加入。请加微信fqq2000nian，注明真实身份。

数据支持天眼查，大模型独家合作账号

— END —

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field

大模型应用创业者，你怎么看？

■ 百度文心一言，阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火京东 ▍产业大模型案例

■ 商汤日日新、腾讯，昆仑万维 ▍ 金融大模型案例

■ 盘古大模型，中国电信，医联 ▍医疗大模型案例

■阅文大模型，腾讯音乐大模型 ▍ 文娱大模型案例

■知乎，360大模型，火山引擎 ▍ 教育大模型案例

■ 网易，金山办公大模型 ▍ 更多行业大模型案例

上次介绍一周找了五个情感陪伴AI产品聊天，我感到更空虚寂寞了？

本文由大模型领域垂直媒体「AI大模型工场」

原创出品，未经许可，请勿转载。

欢迎提供新的大模型商业化落地思路

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签