Nature：科研人员最爱AI工具大盘点！从推理到编程，哪款才是最佳助手？

编辑：英智

几乎每周都有新的、令人影响深刻的AI工具发布，研究人员纷纷踊跃尝试。

从复杂的数学问题求解，到医学诊断中的精准分析，再到代码编写与论文创作，AI工具展现了巨大的潜力。

但市面上令人眼花缭乱的AI模型，究竟哪一款才是让科研工作者效率起飞的「梦中情模」，能助力科研突破，带来事半功倍的效果呢？

在这里，研究人员与《自然》杂志分享了他们当下最青睐的模型。

o3-mini：推理小能手

DeepSeek-R1是开源权重模型，虽然其训练数据尚未公布，但任何人都可以下载基础模型，并根据自己的研究项目进行定制。

香港中文大学（深圳）的计算机科学家Benyou Wang等人正在开发可以在单机上运行或训练的版本，让更多学者能用到这个强大的模型。

和o1一样，DeepSeek-R1的强项是解决数学问题和编写代码。同时，它在提出假设等任务上也表现不错。这是因为DeepSeek选择公布模型的「思考过程」，使得研究人员能够更好地完善后续问题，提高模型的输出质量。

这种透明度在医学诊断领域也可能发挥巨大作用。Benyou Wang正在利用该模型的推理能力开展实验，致力于构建从患者评估到诊断和治疗建议的清晰路径。

然而，DeepSeek-R1也并非完美无缺。该模型的「思考过程」似乎特别长，这降低了它的运行速度，在查找信息或头脑风暴方面实用性欠佳。

与竞争对手相比，DeepSeek在防范模型生成有害内容方面所采取的措施似乎也较少。一些研究人员认为这种开源且功能强大的模型对于科研发展有着重要意义，而另一些人则对此持谨慎态度。

Llama：科研老伙计

Llama是Meta AI于2023年发布的一组开源权重模型，长期以来一直是科研界常用的LLM。仅通过开源科学平台Hugging Face，Llama各个版本下载量就已超过6亿次。

Llama之所以受到科研界的欢迎，很大程度上是因为它可以被下载并在此基础上进行开发。在处理受保护的数据时，能在个人或机构的服务器上运行至关重要，可以避免敏感信息反馈给其他用户或开发者。

研究人员基于Llama模型开发出了能预测材料晶体结构的大语言模型，还利用它来模拟量子计算机的输出结果。

北卡罗来纳大学教堂山分校的ML科学家Tianlong Chen表示，Llama很适合用于模拟量子计算机，因为相对容易对其进行调整，让它理解专业的量子语言。

不过，Llama也有一些小缺点。比如需要用户申请访问权限，这对一些人来说有点麻烦。

因此，其他开源模型，如西雅图Allen人工智能研究所开发的OLMo，以及阿里云开发的Qwen，现在常常成为科研中的首选。DeepSeek V3如今也是有力的竞争者。

Claude：编程利器

在硅谷，很多人对Claude 3.5 Sonnet的编程能力赞不绝口。

Claude 3.5 Sonnet由总部位于旧金山的AI公司Anthropic开发，它不仅可以编写代码，还能解读图表等视觉信息。此外，它还有一种模式，允许其远程操作用户的计算机。

Claude的写作风格也备受赞誉。一些LLM（如ChatGPT）在去除技术语言时，可能也会误删关键信息。而Claude在润色文本的同时，更擅长保留原意。

因此，在撰写科研基金申请或为代码添加解释性注释时，Claude可能是更好的选择。

在一项基于数据驱动的科学任务的基准测试中，Claude 3.5 Sonnet在编程挑战方面表现出色，这些任务的数据取自生物信息学和计算化学等领域的真实论文。

虽然Claude 3.5 Sonnet作为在线聊天机器人可以免费使用，但和OpenAI的模型一样，研究人员只能通过付费API，才能实现完整集成。

随着更便宜的开源模型越来越强大，人们可能会更倾向于使用开源模型。

Olmo：开源新星

对于想要深入了解内部运行机制的研究人员来说，Olmo 2是一个非常不错的选择。

Olmo 2是目前性能最出色的开源模型之一，它还附带算法的训练数据，以及用于训练和评估模型的代码。

研究Olmo 2这样的模型能让研究人员将偏差来源追溯到训练数据上，同时通过更好地理解算法如何得出输出结果，来提高效率。

目前，开源模型的门槛是需要一定的专业知识才能运行，但随着免费实践课程的增加，进入门槛正在逐渐降低。

如果法院判定使用受版权保护的内容来训练模型属于违法行为，那么像Olmo 2这样基于允许重复使用和修改的数据集所训练的模型，可能是唯一可以安全使用的模型。

参考资料：

https://www.nature.com/articles/d41586-025-00437-0

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Fish AI Reader