
最近,大语言模型和具身智能引起了广泛的关注。在未来,语言模型驱动的智能体和机器人将遍布世界的各个角落。由于不同智能体的训练数据和能力各异,并且人类用户的偏好和习惯也各不相同,这使得智能体在与人类及其他智能体交互的过程中必须具备快速适应另一方的能力。这种能力对于确保智能体高效、和谐地融入各种应用场景至关重要。
举个例子,家务机器人需要快速建模用户的生活习惯和家务活的偏好。如果某用户喜欢在早晨打扫房间,而另一个用户则偏好在晚上,机器人需要能够迅速学习和适应这些不同的偏好,确保家务工作能够符合用户的需求并提升用户的满意度。
再比如,不同机器人的制造商不同,硬件配置也各有差异,它们之间并非共享策略。在这种情况下,如果需要合作完成任务,各个机器人必须能够很好地适应他人的策略。比如,一个机器人可能擅长搬运重物,而另一个机器人则擅长精细操作,两者需要通过快速对齐彼此的策略来高效完成复杂任务。
以往的工作大都在多智能体系统(Multi Agent System)的框架下建模这一问题。具体而言, 有两个被广泛引用的概念:零样本协调(Zero-Shot Coordination, ZSC)和临时团队合作(Ad Hoc Teamwork, AHT)。零样本协调由 Hengyuan Hu、Jakob Foerster 等人首次提出[1],指的是用同一算法独立训练多个智能体,使其在测试时无需额外协调即可高效合作的问题。典型的自我博弈(self play)算法往往会生成具有任意约定(arbitrary convention)的智能体,使得零样本协调变得不可能。为了避免出现任意约定的情况,任意对称性打破 、层次化策略、多样策略池生成等方法被提出。但是这些方法的一个问题在于假设所有的智能体都由同一算法训练得到,这在现实中是一个较为苛刻的条件,因为不同的智能体或许由不同的厂商提供,而且当人也作为智能体参与交互时,人的策略是无法被训练算法控制的。ZSC 的整体目标就是要避免出现特定的惯例约定,然而人类群体的行为模式是服从某种先验分布的,这种群体偏好或是自然形成的(如日出而作,日落而息),也有人为规定的(车辆靠右行驶)。
因此,一个更为合适的建模是由 Peter Stone 等人提出的临时团队合作 (Ad Hoc Teamwork, AHT) [2]。AHT 不仅不需要事先协调,还假定对队友没有控制。一些基于类型的方法通过预定义一组智能体类型,并假定任何遇到的新队友都会符合这些预定义类型中的一种来简化该问题。为了避免固定队友类型的缺点,一些最近的工作尝试利用图神经网络和价值分解来生成潜在类型,但是这些方法仍然局限于相对简单的合作问题。
为了更好的定义和建模多智能体中的快速适应问题,近期的工作 PACE[3]提出 Peer Adaptation 问题,该定义不仅包含了 ZSC 和 AHT 中的合作,同时也囊括了竞争任务。例如在零和博弈游戏德州扑克中,人类玩家的策略不尽相同,在入池率、诈唬频率等指标上有显著差异,这些不同策略的最佳应对策略(best response)是不同的。由于交互博弈/合作的时间窗口是有限的,智能体必须学会快速识别对方的策略并进行建模,进而计算得到最佳的应对策略。这其中的本质困难在于许多任务都具有部分观察(partial observation)的性质,比如德州扑克中对手的底牌只有在摊牌阶段才会展示。又比如家务机器人无法分身实时观察家庭中每个用户的行动。因此构建一个高效的在线探索策略来收集他人的行动历史是非常重要的。
未来,随着单个智能体能力的不断增强,智能体的规模和使用场景将出现爆发式增长。因此,多智能体之间的交互以及人机交互必然成为需要重点关注的问题。目前,大语言模型的对齐问题(alignment)已经受到广泛关注。我们希望通过强化学习与人类反馈(RLHF)等方法对语言模型进行微调,使其符合人类的价值观和道德准则。对于更多样化的具身智能体,目前大家更多关注的是如何提升其完成任务的能力,但我们也需要探索构建一套方法,使其能够高效地在线更新对用户价值和偏好的建模,从而更好地服务人类。智能体的快速适应问题仍然有非常多空间值得学术界和工业界进行探索。
参考文献
[1] Hu, Hengyuan, Adam Lerer, Alex Peysakhovich, and Jakob Foerster. "“other-play” for zero-shot coordination." In International Conference on Machine Learning, pp. 4399-4410. PMLR, 2020.
[2] Stone, Peter, Gal Kaminka, Sarit Kraus, and Jeffrey Rosenschein. "Ad hoc autonomous agent teams: Collaboration without pre-coordination." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 24, no. 1, pp. 1504-1509. 2010.
[3] Ma, Long, Yuanfei Wang, Fangwei Zhong, Song-Chun Zhu, and Yizhou Wang. "Fast Peer Adaptation with Context-aware Exploration." arXiv preprint arXiv:2402.02468 (2024).

文 | 王远非
图 | 刘奕良

— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。
