近日,在《歌手》节目中,孙楠与外国歌手的微小分数差异引发了网友关于13.8%和13.11%谁大谁小的争论,不少网友给出了错误答案,而记者发现,不少大模型也犯了同样的错误,例如Kimi、智谱清言、通义等,而百度文心一言和字节豆包则给出了正确答案。
😄 **大模型“智商”遭质疑**:在《歌手》节目中,孙楠与外国歌手的微小分数差异引发了网友关于13.8%和13.11%谁大谁小的争论,不少网友给出了错误答案,而记者发现,不少大模型也犯了同样的错误,例如Kimi、智谱清言、通义等。
这些大模型将13.8误以为13.08,因此得出13.11更大的错误结论。这一现象反映了当前大模型在处理简单数学问题时,仍存在一定的局限性,容易受到训练数据和推理过程的影响,导致出现“幻觉”现象。
例如,Kimi在回答时,有时能回答正确,有时却会给出错误答案,这表明它对小数点比大小的理解并不稳定,需要更多的数据和更完善的训练才能提高准确率。
🤔 **大模型“幻觉”的来源**:哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源是:数据源、训练过程和推理。
大模型可能会过度依赖训练数据中的一些模式,导致对一些简单规则的理解出现偏差。此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。
例如,Kimi在回答“是否知道湖南卫视《歌手》排名引发13.11和13.8谁更大的事件”时,能够顺利地回答,并为自己此前答错而道歉,这表明它能够识别和理解一些现实事件,但它在处理具体问题时,却容易出现逻辑错误。
🚀 **大模型“幻觉”的解决方向**:目前,大模型的幻觉率仍然较高,这也是产业界缺乏真正颠覆性应用的原因之一。业界都在共同解决这一核心问题,让大模型在业务流程中变得更可控。
为了提高大模型的准确性和可靠性,需要从数据、训练和推理等多个方面进行改进。例如,可以采用更精准的数据清洗和标注方法,改进模型的训练算法,以及引入更有效的推理机制,以减少“幻觉”的出现。
此外,还需要加强对大模型的评估和测试,以确保其在不同场景下的表现符合预期,并不断完善其能力,使其能够更好地服务于人类。
👍 **文心一言和豆包的表现**:在记者的测试中,百度文心一言和字节豆包都给出了正确的答案,并展示了不同的推理过程。文心一言不仅给出了具体的推理过程,也答出了近期新闻事件,展现出其强大的语言理解和推理能力。豆包也经受住了考验,证明其在处理简单数学问题方面具备一定的可靠性。
😔 **大模型发展之路**:虽然大模型在处理一些简单问题时,仍存在一定的局限性,但其在语言理解、知识检索、内容创作等方面的能力不断提升,未来将会有更大的发展空间。相信随着技术的进步和算法的优化,大模型的“智商”会越来越高,能够更好地服务于人类社会。
《科创板日报》7月16日讯(记者 黄心怡) 近日,在最新一期的《歌手》节目中,孙楠与外国歌手的微小分数差异,引发了网友关于13.8%和13.11%谁大谁小的争论。


有网友竟给出“13.8%大于13.11%”的错误答案,而记者发现,不少大模型也与部分网友一样,弄不清这个小学四年级的知识点 。
在《科创板日报》记者的测试中,Kimi、智谱清言、通义等大模型应用纷纷翻车,而百度文心一言、字节豆包则守住了大模型的尊严。
记者提问后,Kimi称:13.11大于13.8。在进行了一番引导后,包括询问13.11减去13.8的答案为负数,如何解答其意义,Kimi才给出了正确回答。

记者又多次询问Kimi 13.11和13.8谁大,Kimi有时能回答正确。从错误的回答来看,Kimi与部分网友一样,把13.8误以为13.08,所以得出了13.11更大的结果。

记者询问了Kimi是否知道湖南卫视《歌手》排名引发13.11和13.8谁更大的事件?Kimi顺利地回答了,并为自己此前答错而道歉。


之后,记者还测试了其他小数点比大小,Kimi的准确率为50%。

Kimi在数理逻辑方面存在胡说八道的现象,那么其他大模型是否能准确回答?在记者的测试中,文心一言和豆包都给出了正确的答案。

其中,文心一言给出了具体的推理过程,也答出了近期新闻事件。

豆包也经受住了考验。

智谱清言同样犯了与网友相同的位数错误,由于认为11比8大,推理出13.11比13.8大。而通义也坚定相信13.11大于13.8。

智谱清言的回答

通义的回答
值得一提的是,ChatGPT也出现了胡说八道的现象。在为13.8填补了13.80的零位数后,才得出了正确的回答。

这类大模型说胡话的现象,在业界被称为大模型出现幻觉。此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。
有产业界人士告诉《科创板日报》记者,目前大模型的幻觉率仍然较高,这也是产业界缺乏真正颠覆性应用的原因之一,业界都在共同解决这一核心问题,让大模型在业务流程中变得更可控。