华为、Mila联合提出基于图的可控数据合成，提升大模型长逻辑链推理能力

2024-10-24 13:47 北京

本文探讨了通过基于图的合成推理数据作为训练监督信号，以提升大语言模型（LLM）在逻辑推理任务中的表现，同时揭示了这种方法的潜力和局限性。

©PaperWeekly 原创 · 作者 | 马力恒

单位 | McGill/Mila

研究方向 | 图神经网络

大语言模型（LLMs）在理解和生成类人语言方面取得了巨大的进步，展现了其在自然语言处理上的强大潜力。然而，当涉及逻辑推理，尤其是多跳推理和复杂关系时，这些模型的能力仍然有待提高。

LLM 的未来不只是通过更大的模型和更多的数据来实现，而在于如何使用更智能的数据和更有效的方法来训练这些系统，从而增强其逐步推理的能力。最近的研究表明，基于图的合成数据可能是提升 LLM 逻辑推理能力的关键突破口。

论文标题：

Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data

论文链接：

https://arxiv.org/abs/2409.12437

研究目的

本文探讨了通过基于图的合成推理数据作为训练监督信号，以提升大语言模型（LLM）在逻辑推理任务中的表现，同时揭示了这种方法的潜力和局限性。研究团队提出了一种创新方法，利用图结构化数据进行任务特定的后期训练，以提高模型在逻辑推理任务中的准确性和生成质量。

逻辑推理的挑战

尽管近年来在训练和提示策略上取得了显著进展，大语言模型（LLMs）在处理多跳推理任务时仍然面临挑战。例如，像 Mistral 和 Llama 这样的模型在理解上下文方面表现得非常出色，但在推断家庭关系或处理空间位置等多跳复杂推理任务上，仍然存在性能瓶颈。这些任务不仅需要记忆和模式识别能力，还需要模型能够深入理解和处理复杂的逻辑关系链。

数据合成相关工作

近期几项研究 [1] [2] 已经证明通过在更强大的 LLMs 生成的合成数据上进行微调，可以有效提升 LLMs 的推理能力。然而，如何使这种合成数据生成对特定应用有效且保证可控生成仍是一个悬而未决的问题。同时需要进行广泛的提示工程和进一步的人工干预来指导 LLMs 的生成，但生成的长链推理问题的难度及其标签的质量仍然不可保证 [3][4]。

基于图的合成数据

研究团队提出了一种创新方法 [5]，利用基于图的合成数据来弥补 LLM 在推理能力上的不足。与仅依赖自然语言数据不同，他们将逻辑推理任务转换为图表示——节点代表实体（如家庭成员或空间位置点），边代表它们之间的关系。

为了生成这些合成数据，研究人员采用了一种关系图构建方法，通过迭代建立连接并生成推理样本。通过随机游走采样，可以可控的创建不同复杂度的抽象推理链（通过游走的步数控制数据的复杂度），并进一步实例化推理链条完成数据合成。这种方法在生成长逻辑链方面表现优于传统方法，同时在经济性上也更加高效。

他们将此方法应用于两个基准逻辑推理任务：用于人物关系推理的 CLUTRR 和空间推理的 StepGame。这些基准代表了多跳推理任务，模型必须通过多步逻辑推导来得出正确结论。实验结果表明，利用基于图的合成数据 SFT 大模型后可以显著提升模型在多跳逻辑推理任务中的表现，尤其是在复杂情境下效果尤为显著。

互补的提示策略

除了合成数据，研究团队还提出了一种新型的提示策略，称为ETA-P（Extract then Answer - Prompting：提取逻辑链然后回答的提示）。与标准提示策略 STD-P（Standard Prompting）不同，ETA-P 首先引导模型从输入文本中提取关系图，然后再尝试回答问题。

这种方法类似于 Graph 版本的 “Chain of Thought Prompting”，帮助模型系统分解复杂问题，先整理关键信息形成推理链条，再逐步推导出结论。

基线设置

作者评估了三种系统配置，均使用指令调教的 LLM 作为主干模型：

FS（Few-shot）：模型在少样本条件下测试，无额外微调。

SFT-S（监督微调）：模型在官方训练集上进行监督微调，使用自然语言故事数据。

SFT-S+k：微调数据由原有训练故事加上 k 条基于图游走的合成样本组成。

在主要实验中，作者使用了 Mistral-2-7B 作为主干模型，并包含商业闭源模型 GPT-4o 的少样本测试结果。

研究结果

基于图的合成数据和提示策略在实验中取得了显著效果。微调后的模型在高复杂度场景中的表现明显优于仅依赖传统标注数据训练的模型。

具体来说，作者在 StepGame 和 CLUTRR 这两个基准数据集上进行实验，观察到添加合成数据后模型在推理复杂度上取得显著进步并且符合训练数据的scaling law，甚至在某些情况下超越了商业闭源模型 GPT-4o。

此外，所有模型在推理复杂度从低到中再到高时，性能都出现了系统性下降，这表明特别复杂的推理任务仍然对 LLMs 构成了重大挑战。

提示词策略消融实验

作者还研究了不同提示词对推理任务的影响。在少样本设置下，使用 ETA-P 提示词反而导致性能下降，主要原因是模型未能准确提取故事中的图关系，导致整体性能不佳。然而，在监督微调（SFT）条件下，使用 ETA-P 提示策略显著提高了模型的推理性能，这表明提示词工程在推理任务中是有效的补充手段。

结论

这项工作凸显了结构化数据增强在提高 LLM 推理能力方面的巨大潜力。通过使用基于图的合成数据和新型提示策略，研究团队显著提升了大型语言模型在逻辑推理任务中的表现，尤其是在多跳推理和复杂逻辑关系处理方面。

未来工作可能包括对更复杂图结构数据的研究，或将该方法应用于更多类型的通用逻辑推理任务，从而进一步推动 LLM 在实际应用中的性能提升。

参考文献

[1] Can Xu, et al. 2024. Wizardlm: Empowering large language models to follow complex instructions. In ICLR.

[2] Marah Abdin, et al. 2024. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219.

[3] Arnav Gudibande, et al. 2023. The false promise of imitating proprietary llms. arXiv preprint arXiv:2305.15717.

[4] Yizhong Wang, et al. 2023. How far can camels go? exploring the state of instruction tuning on open resources. In NeurIPS.

[5] Jiaming Zhou, et al. 2024. Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data. arXiv preprint arXiv: 2409.12437.

更多阅读