LLM用于科学假设生成：探索与挑战

科学假设包含待验证的预测、解释和见解，是科学发现的关键前期步骤。围绕如何产生新的科学假设，美国斯坦福大学曾经提出Bit-Flip方法[1]：即首先识别出研究领域中现有方法普遍含有的假设（这是Bit部分），然后提出与该假设不同的新的思路（这是Flip部分）。以下是Bit-Flip方法的一个示例：

Bit部分：早期的机器翻译将待翻译的整个语句映射到一个向量上；Flip部分：针对待翻译语句（特别是长语句）中的不同部分和不同信息，分别进行编解码，以提高翻译质量。

Bit-Flip方法的更多示例可以参考有关文档[1]。

Bit-Flip方法+LLM

大语言模型（LLM）能够针对文献进行理解，也能够生成新的文字内容。将LLM与上述的Bit-Flip方法相结合，来生成新的科学假设，应该是个不错的想法。近期发布的一篇论文[2]就围绕这一思路，介绍了作者们所进行的探索。

这篇论文提出了一个名为HypoGen的数据集，其中包含了从大量学术论文中提取的Bit、Flip、以及其它数据项；经过HypoGen数据集微调后的LLM，在推理时可以根据输入的Bit信息，生成新颖的见解、以及思考过程的描述。具体而言：

作者们根据计算机科学领域的大量会议论文，使用OpenAI的o1模型，提取出5000多组Bit、Flip、Spark、以及Chain-of-Reasoning信息，形成HypoGen数据集，其中，Bit和Flip信息的定义如上文所述，Spark信息包含的是一篇论文核心见解的摘要，Chain-of-Reasoning信息包含的是根据一篇论文的全文生成的、从Bit到Flip思考过程的描述；HypoGen数据集可以在Hugging Face上获取[3]；经过HypoGen数据集微调后的LLaMA模型，在推理时可以根据输入的Bit信息，生成Spark和Chain-of-Reasoning信息。

上述论文[2]在评估生成结果时采用了三类方法：

自动指标‌评估‌：采用困惑度（Perplexity，衡量生成结果的流畅性和连贯性）、IAScore（衡量生成结果与相应论文作者提出的研究想法之间的对齐程度）、以及想法独特性指数（Idea Distinctiveness Index，衡量生成的多个想法之间的语义多样性）进行评估；LLM评估‌：使用Anthropic的Claude 3.7 Sonnet-Thinking模型来评估生成结果的新颖性与可行性，并进一步汇总成生成结果的总体评估；人工评估‌：人工验证LLM评估。

在对测试数据集的测试中，以上三类评估显示：

自动指标‌评估方面：相对于微调前的模型，经过HypoGen数据集微调后的LLaMA模型所生成的结果与相应论文作者提出的研究想法对齐得更好，但在想法独特性指数上有所下降，揭示出模型的对齐性与想法的语义多样性之间可能存在负相关的关系；LLM评估方面：经过HypoGen数据集微调后的LLaMA模型所生成的结果在总体上优于1-Shot方法，但生成结果的新颖性与可行性之间显示出负相关的关系；人工评估方面：小规模的人工评估与LLM评估在结果上基本一致，进一步证实了经过Bit、Flip、Spark、以及Chain-of-Reasoning数据微调后的模型在结果生成质量上的提升。