原创 云中江树 2025-04-22 16:35 北京
那个能让论文发光的洞见,还得是你亲自点亮的那盏灯。
写综述熬夜至凌晨三点,1万字学术报告写得头秃,AI生成的内容还不能直接用...这些痛苦,学术党都懂。
现在回想起当年熬夜撰写文献综述的时候,还能感受到那种头发在哗哗掉的感觉。
最近无意间发现了清华和面壁智能的最新研究竟然能一口气直出近4万字的综述报告,而且内容引经据典,有深度、有广度!简直是科研人员了解领域概况的福音。
说实话,有被震惊到!
真正写过研究综述的人都知道,AI大模型直接出的内容其实是不太行的。每次看到AI生成的"综述",不是逻辑混乱就是内容空洞。
类似谷歌的deep research等工具写的内容虽然在信息量上有比较大的提升,但是内容深度还是不足,包括语言表达方面还是比较枯燥。
01 为什么AI写不好综述报告?
两大难题卡住了它的脖子。
综述报告属于典型的"严进宫"内容,AI写作时面临两座大山:
研究综述动辄几万字,而大模型一次最多也就写几千字,这大大超出了大模型单次写作的能力范围。就像让一个人一口气背完《红楼梦》,不现实啊!
高质量综述报告要求数据翔实,有深度洞见,信息量要高。但AI往往输出的是"大道理+空话",信息密度低得可怜。
你可能会说:"那我让AI分段写,再拼起来不就行了?"
试过了,拼接后的内容常常前言不搭后语,缺乏连贯性。
"那我给AI提供大量参考资料呢?"
问题是,AI的"工作记忆"有限,记不住那么多材料。常见做法是把这些信息做成知识库,AI需要时再"查阅",抽取出碎片知识。
但是这些碎片知识之间关联度低、连续性差,最终写出来的内容像"缝合怪",看看下面这篇"端侧模型部署技术调研报告"就知道了——信息零散,深度不够,典型的AI味儿。
与其让AI"抄抄抄",更好的方法是让它"悟"——将提供的资料融汇贯通。
我一直在思考,精心设计的test-scaling策略应该能解决这个问题。
02 清华黑科技
本来我是想自己设计相关方案,但按一贯"先调研后行动"的习惯,我先研究了一下现有方案。
结果惊喜发现了清华和面壁智能团队出品的这篇宝藏论文!
https://arxiv.org/abs/2504.05732
当看到论文里这张「提取式」对比「综合式」的示意图时,瞬间击中我心灵——这正是我一直在寻找的解决思路!
论文名字有点学术范:「LLM × MapReduce: Simplified Long-Sequence Processing using Large Language Models」,翻译过来就是『LLM × MapReduce:使用大型语言模型简化长序列处理』。
幸好我有科研背景,能把实际问题抽象为技术问题,否则这篇宝藏论文就与我擦肩而过了。
这里的"长序列处理"就是指综述这类长文本内容。这是一个通用的解决方案,特别适用于行业报告、文献综述等各种需要对领域有全面了解的长文本场景。
最赞的是,论文、代码、体验demo全都开源了,简直是我的"梦中情项目"!
GitHub开源地址:
03 让AI写出高质量长文综述
不愧是清华出品,他们提出的LLM×MapReduce-V2方案,不需要训练新模型,通过test-scaling方法就优雅地解决了问题。
这个原理图有点复杂,我用Claude帮忙做了一张更直观的解释图:
整体解决方案可以用"三步走"来概括:
第一步:列大纲
你有没有逛超市前先列购物清单的习惯?
同样的道理,LLM×MapReduce-V2会先根据你的主题(比如"人工智能最新进展")和一大堆材料(几百篇论文资料),搭建一个内容框架,列出"引言、方法、结论"这些章节。
然后,它从每份材料里快速摘取精华,写成简短"摘要",就像把每本厚书精华浓缩成一段话。
第二步:优化大纲
初版大纲像草图,可能有些地方不完美——章节内容太薄弱,或者逻辑顺序不够流畅。
LLM×MapReduce-V2使用两种方法优化大纲:
1)熵驱动的卷积:
这听起来很复杂,但实际上就像用放大镜一层层扫描拼图,把小信息块整合成大信息块。
它会先看每份材料的重点,再思考这些重点如何组成一个完整故事。用"信息熵"(信息丰富度)来评分,挑选最有价值的改进方案。
卷积的技术原理类似于我们看画作的过程——先看到树叶(局部细节),然后是整棵树,最后是整片森林(全局结构)。
这种从局部到全局的处理让AI能更好地掌握内容的整体逻辑和脉络,特别适合创建领域概览式的综述。
2)Best-of-N自优化:
生成多个优化版本,然后选择信息最丰富的那个,就像试穿几套衣服,挑最合适的那件。
第三步:填充内容
有了完美大纲,就像有了房子蓝图,接下来就是精装修!AI按照大纲一层层写内容:先处理小章节的细节(比如某项技术的实现方法),再写大章节的总结(如技术发展趋势)。
它会融入前面摘取的精华内容,确保文章既有深度又有广度,就像把每个房间都装修得既美观又实用。
这三步下来,就能得到一篇信息丰富、逻辑清晰的高质量领域综述报告,帮助研究者在开始深入研究前对整个领域有全面认识!
04 综述质量
为了确保内容真正有价值,系统用了一个巧妙的评估机制——用语言模型(LLM-as-judge)给大纲打分(0-10分),计算"信息熵"。
这个评分分为两部分:
最终总分 = 结构熵 + 内容熵
这就像请一位资深编辑审阅你的文章大纲,不够好的地方得返工!妙啊hh~
清华团队还构建了专门的数据集来进行效果评估:
表格有点枯燥,我来给你翻译翻译。相比其他方法(Vanilla、Vanilla+Skeleton、AutoSurvey),LLM×MapReduce-V2在综述写作中的优势明显:
资料利用率拉满:精准度和覆盖率(95.50和95.80)远超AutoSurvey(50.12和51.73)。用人话说就是:能把一堆资料的精华全部"榨干",不错过任何重要信息!
内容"含金量"高:信息数量474.90比AutoSurvey(423.35)多,密度52.23比AutoSurvey(31.97)高。简单说:不只是内容多,而且句句都是"干货",不废话!
有深度不肤浅:深度评分71.99最高,超过AutoSurvey(68.39)。这点是最难得的——不仅有广度还有深度,这决定了综述报告的整体质量。
当年还在学校的时候要是有这玩意儿就好了,入门新领域的效率能提高十倍呀!
数据集也在「抱抱脸」网站开源了:
05 效果
面壁智能团队还推出了超实用的体验demo,取名"卷姬"(这名字也太贴切了吧):
链接在这里:https://surveygo.thunlp.org/
我忍不住试用了几个案例,看完生成的内容后,真心满意!内容翔实,而且引用规范,完全不像是AI生成的综述报告。
全文:https://modelbest.feishu.cn/wiki/JaTywqIn5i1SXEkLKxDcRvzJn2b
我从下面五个维度大概评估了一下,尤其值得称赞的是其在信息整合方面的出色表现,不是简单堆砌各方观点,而是真正做到了融会贯通,形成系统知识框架;同时其批判性分析能力也相当突出,不仅指出了概念界定的模糊性,还深入剖析了不同技术路径的局限与优势,为研究者提供了一个既全面又有深度的领域概览,大大提高了前期研究效率。
而且让我惊喜的是,报告引用的内容质量非常高,都来自Nature、斯坦福、谷歌、DeepMind等权威信源,非常适合作为研究前的领域概览参考。
因为项目是开源的,可以看源码,我发现他们对内容质量的把关非常严格,这个项目的构思和精细度真的很好!
从下面的评估提示词就能看出来(顺便说一句,这个项目架构和提示词设计真是太值得学习了):
请你依据下列主题和在互联网上检索到的内容,判断这段内容的质量分数。
主题:{topic}
检索到的内容:{content}
请你依据以下几个维度,对这段检索到的内容进行打分。请你尽可能严格,批判性给分。
1. 内容与主题的相关程度。这需要考虑内容是否能被视为主题的一部分子内容进行展开。
2. 内容能够用于撰写与主题的文本的质量。这需要考虑文本的长度(例如:如果长度非常短,则用于参考的价值相对较低)、文本中是否包含较多乱码、文本本身的质量等。
请你综合考量上述两个维度,先给出评分的理由,再进行评分。你需要对每一个维度进行评分,评分范围是0-100。0表示完全不相关,100表示完全相关。完成每一个维度的评分后,你需要进行计算,得出最后的平均分。
注意,评分需要用<SCORE></SCORE>包裹起来。例如<SCORE>78<SCORE>
回答示例:
理由:...
相似度评分:<SCORE>89</SCORE>
难怪生成的内容那么高质量!
"卷姬"不只能从网上搜索资料,还支持上传你自己的研究资料进行创作,特别适合科研工作者在正式研究前进行领域概览:
如果你是开发者,甚至可以基于开源项目自己部署。(有部署好的朋友欢迎分享,真的很需要!)
说实话,这种能够快速生成高质量研究综述的工具商业化空间巨大,可以大大提高科研人员了解领域全貌的效率。
06 使用指南
对这个项目感兴趣的朋友,这里汇总一下所有资源:
想体验一下「卷姬」的朋友可以看这个使用指南:
需要注意的是:目前这个只是体验demo,算力有限。因此官方说目前只能保证点赞数排名前10的需求第二天会写作完毕,大多数能当天完成。
最后
AI就像一个永不疲倦的研究助理,帮你整理海量资料、发现隐藏连接、搭建思维框架,让你在开始研究前就能获得对领域的全面认识。但真正有价值的研究洞见,还得是你亲自点亮的那盏灯。
这种工具最大的价值在于帮助你快速了解一个领域的全貌,提供完整的概览,让你能更有针对性地进行后续深入研究。它不是用来替代学术论文写作的,而是作为研究前的高效辅助工具。
别把AI当替身,而是把它当成你思想的放大器。选题的灵感、内容的把关,这些关键决策,必须攥在你自己手里。
我是「云中江树」,这里每周为你分享AI工具、方法和观点。
👉 点赞、在看、分享三连支持,关注「云中江树」,深度驾驭AI!