ScholarCopilot：使用精确引用彻底改变学术写作

简介

学术写作对人工智能系统提出了独特的挑战，尤其是在准确且在上下文中适当整合引文方面。虽然大型语言模型（LLM）可以生成流畅的学术文本，但它们经常遭受引文幻觉——捏造或错误归属参考文献——这严重限制了它们在学术环境中的用途。

论文“ScholarCopilot：训练大型语言模型以使用精确引文进行学术写作”介绍了一种旨在解决这些局限性的新型框架。ScholarCopilot 由滑铁卢大学、卡内基梅隆大学和 Vector 研究所的研究人员开发，重新构想了 AI 系统在学术写作中处理引文过程的方式。

传统 RAG 与 ScholarCopilot 的比较

图 1：传统检索增强生成（左）与 ScholarCopilot 的迭代方法（右）之间的比较，显示了生成质量、检索准确性和人工评估的性能指标。

与使用顺序“检索然后生成”管道的传统检索增强生成 (RAG) 系统不同，ScholarCopilot 实施了一个统一的迭代框架，该框架根据不断发展的生成上下文动态确定何时需要检索。这种方法通过将文本生成与精确的引文检索无缝集成，代表了 AI 辅助学术写作的重大进步。

理解学术写作中的挑战

学术写作从根本上不同于一般文本生成，因为它对事实准确性、适当归属和基于证据的论证有严格的要求。这些品质对当前的人工智能系统提出了重大挑战：

引文幻觉

上下文敏感性

检索-生成错位

用户控制

这些挑战突出了当前方法的局限性，这些方法通常将引文视为后处理步骤或预定的检索阶段，而不是写作过程的组成部分。

ScholarCopilot 框架

ScholarCopilot 通过其代理 RAG 框架，为 AI 辅助学术写作引入了一种根本不同的方法。其关键创新在于其动态的、上下文感知的引文机制：

1. 动态引文检测：   - 在文本生成过程中，模型确定何时需要引文   - 生成特殊的 [RET] 标记以指示引文机会

• 在生成 [RET] 令牌后，生成暂停• 令牌之前的上下文被编码为查询• 从学术数据库中检索相关引文

• 检索到的引文信息被整合到文本中• 生成继续，引文格式正确• 随着新的引文机会出现，该过程重复进行

这种统一的框架消除了检索和生成阶段之间的分离，从而实现了更自然和准确的引文过程，该过程反映了人类研究人员的工作方式。如图2所示，ScholarCopilot动态地交错生成和检索，从而创建了更流畅的写作过程。

工作流程对比

图2：详细的工作流程比较，显示了传统的RAG（左）如何分离检索和生成，而ScholarCopilot（右）如何动态地将它们与可选的用户细化集成在一起。

架构与实现

ScholarCopilot的架构以一个统一的模型为中心，该模型处理文本生成和引文检索：

基础语言模型

检索令牌生成

密集向量表示

联合优化

这种方法的数学基础依赖于将上下文和文档编码到共享的嵌入空间中，其中相关匹配具有高相似度：

sim(q,d)=Eq⋅Ed∣∣Eq∣∣⋅∣∣Ed∣∣sim(q,d)=∣∣Eq∣∣⋅∣∣Ed∣∣Eq⋅Ed其中，EqEq 表示编码的查询（[RET] 之前的上下文），EdEd 表示编码的引文文档。这允许跨大型引文数据库进行高效的相似性搜索。

训练数据准备

ScholarCopilot的开发需要大量的数据处理，以创建高质量的训练数据集：

数据准备流程

图3：ScholarCopilot的数据准备流程，显示了从arXiv论文到结构化训练数据的转换。

数据集创建过程包括：

来源收集

结构化解析

引文提取

参考文献匹配

训练集创建

这个全面的数据集使ScholarCopilot能够学习学术写作的模式，包括通常放置引文的位置以及它们与周围文本的关系。

用于增强引文检索的对比学习

ScholarCopilot的一项关键技术创新是它使用对比学习来优化检索令牌表示：

对比学习框架

图4：ScholarCopilot的对比学习框架，用于优化查询上下文和相关文档之间的相似性。

对比学习方法：

1. 将检索标记之前的内容视为查询2. 将实际引用的文档视为正例3. 将批次中的其他文档视为负例4. 优化查询和正例之间更高的相似度，同时降低与负例的相似度

对比损失函数定义为：

Lcontrastive=−log⁡exp⁡(sim(q,d+)/τ)∑d∈{d+,d1−,...,dn−}exp⁡(sim(q,d)/τ)Lcontrastive=−log∑d∈{d+,d1−,...,dn−}exp(sim(q,d)/τ)exp(sim(q,d+)/τ)其中 ττ 是一个温度参数，用于控制分布的锐度。这种方法通过教导模型生成具有上下文意义表示的检索标记，从而显著提高检索准确性。

评估与结果

ScholarCopilot 在检索准确性和生成质量方面都进行了评估，结果令人印象深刻：

检索准确率结果

图 5：检索准确率比较，显示了 ScholarCopilot 在不同召回率阈值下相对于基线方法的性能。

检索性能：

• Top-1 检索准确率：40.1%（相比之下，E5-Mistral-7B-Instruct 为 15.0%，BM25 为 9.8%）• Recall@10：64.8%（是同类模型性能的两倍多）

生成质量：

• 总体生成得分：16.2/25（超过了参数多 10 倍的模型）• 在五个维度上的评估：相关性、连贯性、学术严谨性、完整性和创新性

这些结果表明，ScholarCopilot 不仅检索到更准确的引文，而且保持了高质量的文本生成。考虑到它优于更大的模型，例如 Qwen-2.5-72B-Instruct (15.8/25)，尽管参数明显更少，但该系统的性能尤其令人印象深刻。

人工评估和用户体验

除了自动化指标外，ScholarCopilot 还通过与学术研究人员进行的用户研究进行了评估：

人工评估结果

图 6：人工评估结果，比较了 ScholarCopilot 和 ChatGPT 在多个维度上的表现。

人工评估显示：

• 100% 的参与者认为 ScholarCopilot 的引文质量比 ChatGPT“更好”或“好得多”• 70% 的人认为 ScholarCopilot 的整体有用性“更好”或“好得多”• 60% 的人发现易用性有所提高• 70% 的人报告了更好的时间效率

参与者使用 ScholarCopilot 完成了写作任务，并使用下图所示的表格评估了其性能：

用户研究表格 1

用户研究表格 2

示例输出表格

这些结果证实，ScholarCopilot 为学术写作者提供了切实的益处，尤其是在引文准确性和管理的关键领域。

影响和未来方向

ScholarCopilot 代表了为学术写作提供可靠的 AI 辅助的重要一步，具有以下几个重要影响：

提高研究效率

学术写作的民主化

RAG 技术的进步

增强用户控制

未来研究方向可能包括：

• 将覆盖范围扩展到计算机科学以外的其他学科• 纳入更多样化的引用样式和格式要求• 开发区分主要来源和次要来源的机制• 增强系统识别引文覆盖范围差距的能力

结论

ScholarCopilot 通过重新构想引用和文本生成如何集成，引入了人工智能辅助学术写作的范式转变。通过开发一个统一的框架，该框架动态地确定何时需要引用，并根据不断变化的上下文检索相关参考文献，该系统实现了比传统方法更高的准确性。

在自动评估和人工研究中的出色表现证明了这种方法对学术研究人员的实际价值。 ScholarCopilot 解决了引文幻觉这一关键挑战，同时保持了高质量的文本生成，甚至优于参数更多的模型。

随着人工智能越来越多地支持知识工作，像 ScholarCopilot 这样尊重学术写作的严格标准，同时提高生产力的方法将变得越来越有价值。通过专注于学术写作的特定需求，而不是一般的文本生成，ScholarCopilot 代表了在真正有用的人工智能研究辅助方面迈出的重要一步。

‍