2024-07-26 22:04 浙江
Datawhale发顶会了?,代码完全开源
《RMIB: Representation Matching Information Bottleneck for Matching Text Representations》
文本表示匹配中的表示匹配信息瓶颈(RMIB)
【作者】:潘海辉,猎户星空算法工程师、谢文睿,Datawhale
【摘要】:最近的研究表明,文本表示的域匹配将有助于提高非对称域文本匹配任务的泛化能力。这就要求文本表示的分布要尽可能的相似,类似于与异构数据域的匹配,才能使得特征提取后的数据不可区分。然而,如何匹配文本表示的分布仍然是一个悬而未决的问题,并且文本表示分布匹配的作用仍不清楚。在本论文中,我们通过将文本表示与相同的先验分布进行匹配来明确缩小文本表示的分布。我们从理论上证明,缩小非对称域文本匹配中文本表示的分布相当于优化信息瓶颈(IB)。由于文本表示之间的交互在非对称域文本匹配中起着重要作用,因此IB不限制文本表示之间的交互。因此,我们在IB的基础上提出交互的充分性和单个文本表示的不完整性,并获得表示匹配信息瓶颈(RMIB)。我们从理论上证明RMIB中对文本表示的约束相当于在给定任务信息的前提下最大化文本表示之间的互信息。在四个文本匹配模型和五个文本匹配数据集上,我们验证了RMIB可以提高非对称域文本匹配的性能。
OpenreView 地址:
https://openreview.net/forum?id=hsHIxrnrMx
Github 开源代码:
https://github.com/chenxingphh/rmib