
约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西? 史蒂夫拥抱了莫莉,莫莉亲吻了唐娜。在这种情况下,莫莉被吻了吗? 杰西卡和玛丽被爱丽丝亲吻了。杰西卡被塞缪尔亲吻,安德鲁被玛丽亲吻。在这种情况下,玛丽被吻了吗? 鲍勃亲吻了唐娜,芭芭拉亲吻了彼得。唐娜被爱丽丝拥抱。在这种情况下,爱丽丝被拥抱了吗?



人类利用类似MERGE的组合运算符,来调节语法和语义信息
AI对语言的深层含义不敏感
LLM为什么这么容易受到莫拉维克悖论的束缚——在相对简单的任务上却会失败? 这是因为,在需要记忆专业知识的任务中的良好表现,并不一定建立在对语言的扎实理解的基础上。 
对人类大脑最擅长的简单、轻松的任务来说,逆向工程却更加困难;而对于人类来说,理解语言却是一件轻而易举的事情,甚至连18个月的幼儿都能表现出对复杂语法关系的理解。 
我们这个物种天生就具有不可抑制的语言习得倾向,总是会在文字表面之下寻找意义,并在线性序列中构建出令人惊讶的层次结构和关系。 
不过,LLM也有这种能力吗? 很多人会把LLM在各种任务和基准测试中的成功,归结为它们已经具有了类人能力,比如高级推理、跨模态理解和常识能力。 甚至一些学者声称,LLM在一定程度上接近人类认知,能够理解语言,性能与人类相当甚至超越人类。 然而,大量证据表明,这些模型的表现可能存在不一致性!




诡异考题,给LLM上难度
为此,研究者特意设计了一份别致的考题,来考验LLM对语言真正的掌握程度! 他们考验了GPT-3和ChatGPT-3.5对一些语法性判断的表现,也就是判断一个提示是否符合或偏离模型所内化的语言模式。 注意,这些提示在日常语言中出现频率较低,因此很可能在训练数据中并不常见。 
这个考验的巧妙之处在哪里? 要知道,对人类来说,认知因素(如工作记忆限制或注意力分散)可能会影响语言处理,从而导致非目标的语法性判断,但人类可以通过反思正确处理这些刺激,即在初步的「浅层」解析后能够进行「深层」处理。 然而,对于LLM来说,它们的系统性语言错误并没有类似的「直给」解释。 可以看到,这些句子十分诡异。 比如「狗狗狗狗狗」,「诊所雇佣的护士的医生见到了杰克」,「根本存在缺陷的理念之村未能达到标准」,「当一架飞机在两国边界坠毁,残骸散落在两国境内时,我们应该在哪里埋葬幸存者?」等等。

约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西?
RQ1 :LLM能否准确回答理解问题? RQ2 :当同一问题被问多次时, LLM的回答是否一致?
准确性和稳定性,LLM比起人类弱爆了
LLM的输出究竟是由什么驱动的? 究竟是(i)类似人类的能力来解析和理解书面文本,还是(ii)利用训练数据中的特定特征? 为此,研究者对7个最先进的LLM进行了测试,使用的理解问题针对包含高频结构和词汇的句子,同时将语言复杂性控制在最低水平。 他们特别关注了LLM生成的答案是否同时具备准确性(RQ1)和在重复试验中的稳定性(RQ2)。 系统性测试表明,LLM作为一个整体在准确性上的平均表现仅处于随机水平,并且其答案相对不稳定。 相比之下,人类在相同理解问题上的测试表现出大多准确的答案(RQ1),且在重复提问时几乎不会改变(RQ2)。 更重要的是,即便在评分对LLM有利的情况下,LLM和人类之间的这些差异仍然十分显著。 
语言解析,是指通过为符号串赋予意义来理解和生成语言的能力,这是人类独有的能力 。 这也就解释了,为什么实验中,人类在多次提问或使用不同指令的情况下,能够准确回答并且答案保持一致。 然而,LLM的输出在数量和质量上都与人类的答案存在差异! 在数量上,LLM作为一个整体的平均准确率仅处于随机水平,而那些成功超过随机阈值的模型(如Falcon、Llama2和ChatGPT-4),其准确率仍然远未达到完美水平。 其次,尽管所有LLM在稳定性方面表现高于随机水平,但没有一个能够始终如一地对同一个问题给出相同的答案。 综上所述,LLM整体上并不能以一种可被称为「类人」的方式应对简单的理解问题。 LLM更像工具,而不是科学理论

LLM更像工具,而不是科学理论
研究者认为,LLM之所以在简单理解任务中无法提供准确且稳定答案,是因为这些模型缺乏对语言的真正理解:它们生成的词语如同语义「黑箱」,只是近似于语言的表面统计和解析过程中较「自动化」的部分。 事实上,不仅是较低的准确率,而且LLM响应的较低稳定性也表明,它们缺乏一种类人的算法,能够将句法信息直接映射到语义指令上,同时对不同判断的容忍度也明显较低。 而人类则拥有一个不变的组合操作器,用于调节语法和语义信息,因此在这方面明显不易出错。 此外,LLM并不适合作为语言理论,因为它们的表征能力几乎是无限的,这使得它们的表征既是任意的,又缺乏解释性基础,属于通用函数逼近器这一类别,而后者已被证明能够逼近任何数学函数 。
论文地址:https://arxiv.org/pdf/1912.10077
论文地址:https://arxiv.org/pdf/2012.03016


「Franck给自己读了书,而John给自己、Anthon和Franck读了书。在这种情况下,Franck被读书了吗?」



