近日,来自德国图宾根大学的孙坤博士和团队首次实现了大语言模型与人类认知过程的深度融合,开创了 AI 理解人类语言认知机制的新范式。这一突破性成果不仅推动了 AI 技术的发展,更为探索人类智能的本质开辟了一条全新的道路。
关于这一系列研究的相关论文已发表于 Cognition、 Linguistics、Psychometric Bulletin & Review、 Psychological Methods 等期刊、计算语言学顶会以及机器学习顶会上,还有部分论文发表于 arXiv。
众所周知,随着 GPT、BERT 等大型语言模型的出现,AI 在语言处理领域取得了前所未有的进展。然而,这些模型在真正理解和模拟人类认知过程方面仍存在巨大差距。
为了跨越这一鸿沟,孙坤和所在团队提出这样一个目标:开发一种能够不仅理解语言,还能深入洞察人类认知机制的智能系统。
孙坤表示:“我们的研究首次将大语言模型的强大能力与认知科学的深刻洞见相结合,旨在创造一个不仅能处理语言,还能真正洞悉人类认知过程的 AI 系统。这标志着人类向理解人类智能本质迈出了关键一步”。
为了实现这一目标,研究团队采用了一系列最前沿的技术和方法:
多模态深度融合:即研发创新的多模态注意力机制,使模型能够同时处理和理解文本、图像、声音等多种信息,模拟人类的多感官认知过程。
认知过程建模:即将人类认知机制整合到模型中,使 AI 能够模拟人类在阅读、理解和决策过程中的认知机制。
跨模态对比学习:即采用最新的跨模态对比学习技术,捕捉不同模态信息之间的微妙关联,从而更准确地模拟人类的联想和推理过程。
大规模认知数据集:即构建大规模的多模态认知数据集,包含了来自不同文化背景的志愿者在各种认知任务中的行为数据、眼动数据和脑电数据。
通过此,课题组取得了多项成果:
其一,实现了多模态理解与认知预测。
研究中,所使用的模型在预测人类多模态信息处理任务中表现出色,特别是在处理文本-图像联合推理任务时,准确率比现有最佳模型提高了 10%。
更重要的是,该团队的模型能够准确预测人类在这些任务中的认知过程,如注意力分配和决策时间。
其二,实现了长文本处理与阅读行为预测。
通过改进的注意力机制,该模型不仅能够有效处理长达 5000 个词的文本,还能准确预测人类在阅读这些长文本时的眼动模式和理解难点。
其三,实现了跨文化认知模拟。
该团队的模型能够以 75% 的准确率预测来自不同文化背景的人在阅读复杂句子时的眼动和脑电模式,从而能为研究语言普遍性和文化特异性提供了新的工具。
其四,实现了通用认知框架。
对于统一的计算框架来说,它能同时模拟和预测人类在语言理解、视觉感知、听觉处理等多个认知领域的表现,从而能够助力于发展真正的通用 AI。
同时,这项研究的潜在应用范围十分广泛,有望为多个领域带来改变。
在智能教育领域,基于该模型可以开发出更智能的个性化学习系统。这些系统能够根据学生的阅读行为、理解能力和认知特点,实时调整教学内容和难度,甚至预测和防止学习困难的出现。
在医疗诊断领域,对多模态理解和认知预测技术可以应用于医疗影像分析、病历解读,以及精神和神经系统疾病的早期诊断。通过分析患者的语言使用模式和多模态交互行为,该系统可以帮助医生更准确地诊断语言相关的疾病,比如失语症、阅读障碍等,还可以诊断其它相关的病症,如阿尔茨海默症、自闭症等疾病。
在人机交互领域,通过结合语音、视觉和文本理解,并融入对人类认知过程的深入理解,本次技术可被用于开发下一代智能助手。这些助手不仅能够理解用户的语言,还能预测用户的意图和情感状态,使人机交互变得更加自然和智能。
在创意产业领域,课题组的模型能够理解复杂的语境、多模态信息和人类创造性思维过程,可以用于辅助创意写作、艺术创作,甚至预测文化产品的受欢迎程度。
在认知科学研究领域,上述模型可以作为强大的计算工具,帮助认知科学家模拟和预测复杂的认知过程,加速对人类智能本质的探索。
未来,研究团队还将采取四步走的策略来开展后续研究。
首先,将致力于实现情感与创造力建模。计划将研究扩展到情感认知和创造性思维领域,朝着构建真正的“有感知、有创造力”的 AI 系统迈进。
其次,将致力于实现大脑-计算机接口。即探索将 AI 模型与脑机接口技术结合,开发能直接与人脑交互的智能系统。
再次,将致力于实现意识与自我,即探讨 AI 系统是否可能发展出类似人类的自我意识,这将涉及哲学、认知科学和 AI 的深度融合。
最后,将开展通用 AI 研究。基于课题组在语言和认知模型方面的突破,计划进一步探索通向通用 AI 的道路,研究如何将语言理解、视觉感知、推理决策等能力整合到一个统一的智能系统中。
孙坤表示:“随着这一系列研究的深入开展,我们或许正在见证 AI 发展史上的一个重要转折点,一个 AI 不仅能模仿人类行为,还能真正理解和模拟人类思维的新时代的开端。”