魔搭ModelScope社区 04月09日 18:51
WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里研究团队联合高校开源WritingBench,这是一个覆盖六大领域、100个细分场景的写作评估基准,旨在全面评估生成式写作能力。团队还发布了基于Qwen的32B创作模型,该模型凭借思维链技术在创意型任务上表现出色,接近顶尖水平。WritingBench的发布,为AI写作评估提供了更全面、更动态的视角,推动了AI创作的发展。

💡 WritingBench是一个全面的AI写作评估基准,覆盖学术、金融、政治、文学、教育、营销六大领域,并细分为100个子类场景,例如金融领域的投资分析报告,营销领域的社交平台推广文案等,为生成式写作提供了更全面的评估框架。

📝 WritingBench采用基于写作意图的动态评估体系,针对每个写作输入自动生成评测指标,从而实现与人类判断更高的一致性。该体系能根据用户需求,例如仿照素材风格、格式或结合提供的实例进行材料撰写。

🚀 WritingBench支持多种模型评估方式,包括使用Critic Model打分和LLM API调用打分,用户可以灵活选择。同时,WritingBench提供了不同模型在各个领域和子领域的表现对比,方便用户了解不同模型的优劣势。

🧠 阿里团队基于Qwen-2.5-32B-Instruct模型训练了写作深度思考模型,该模型在创意型写作任务上表现出色,超越了同系列大尺寸的Qwen-Max,表现可媲美R1,为高效能创作开辟了新路径。

2025-03-28 14:09 浙江

阿里开源WritingBench写作测评工具及32B深度思考写作模型,覆盖多领域,助力创意型写作。

00

导语



近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。



论文链接:

https://arxiv.org/pdf/2503.05244


项目地址:

https://github.com/X-PLUG/WritingBench


01

WritingBench项目背景



现有AI写作评估多局限于单一领域和短文本,大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。此外,传统评估方法多采用固定标准来衡量不同的复杂场景。数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型AI的发展。


数据基建:最懂行业的写作题库

两级领域体系

WritingBench从现实需求中提炼出六大场景:


    学术与工程

    金融与商业

    政治与司法

    文学与艺术

    教育

    宣传营销


在这些场景下进一步细分为100个子类,例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景。「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。


(图:WritingBench的6大领域分布)


四阶段人机协同构建

(图:评测集构建流程)


团队耗时三个月,经过四个阶段流程完成评测集构建。首先,由模型从100个子领域需求池中生成简单写作任务,再对指令进行复杂化处理(如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气)并提供真实场景可能需要的素材建议。接着,由人工补充开源素材,如财报、法律条文等输入料。最后,由专家对所有文本进行内容质检。下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。


(图:WritingBench写作查询示例)


与其他写作相关评测基准对比,WritingBench领域和素材来源更为广泛,并额外支持了风格」、格式」、长度」维度的能力评测。


(图:与相关写作评测基准对比)


因题施评:基于写作意图的动态评估体系

使用单一标准评估无法适应不同写作意图的需求,就像"悬疑小说"和"儿童启蒙故事"显然有着不同的价值导向。因此,WritingBench设计了一种基于写作意图自动生成评测指标的方法,模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则,以更好地结合素材和用户实际需求(如仿照上传素材的风格格式或结合提供的事例进行材料撰写)。此动态评估策略实现了87%的人类一致性得分,团队还配套训练了一个评分模型,能够根据不同指标自适应地给出1-10分的评分及具体理由。


(图:动态评估指标示例)


02

如何使用WritingBench评估工具


「安装与下载」

 🚀 Github仓库链接:

https://github.com/X-PLUG/WritingBench



在benchmark_query文件夹下提供了评测全集benchmark_all.jsonl和三维度子集,读入需要评测的jsonl文件后将结果保存至新的jsonl,每一条需要记录"index"和"response"字段。


「评测打分」

选项一:Critic Model打分

为打分模型配置本地路径和设置,并设置--evaluator critic。


Critic Model下载链接:

https://www.modelscope.cn/models/iic/WritingBench-Critic-Model-Qwen-7B


选项二:LLM API调用打分

在evaluator/llm.py中为LLM配置API,仓库中提供claude调用参考,即--evaluator claude。


「结果对比」

(图:不同模型在WringBench上表现对比)


教育领域(D5)在各个模型中的表现均较好,其次是学术和工程领域(D1)。文学与艺术(D5)是得分最低的领域,不同模型表现出显著的差异。具备链式思维(CoT)能力的模型如Deepseek-R1和o1-preview在处理叙述性和创意内容上表现优于其非CoT对照模型,表明CoT在处理此类内容时的潜力。


(图:不同模型在100个子领域上的得分热力图,颜色越红代表分数表现越好,越蓝表示表现越差)


在100个子领域上进一步对比,发现小说续写、招投标书和白皮书等领域仍存在挑战,这些任务需要更高水平的知识、长文本生成能力和对上下文的一致性要求。


更多WritingBench上模型间对比实例可在在线体验链接中查看:https://modelscope.cn/studios/iic/DeepWriting


03

写作深度思考模型



12K通用写作的SFT数据上基于Qwen-2.5-32B-Instruct模型训练了一个写作深度思考模型。结果显示,其在创意型写作任务上具有显著优势,超越了同系列大尺寸的Qwen-Max,表现可媲美R1。


(图:32B创作模型思维链消融实验)


「如何使用」

模型链接:

https://www.modelscope.cn/models/iic/Writing-Model-Qwen-32B-thinking


下面提供一段vllm调用代码:


「写作示例」

示例一:小红书迪士尼攻略


示例二:火锅店评论


示例三:小说创作(武侠版的'魁地奇')


更多写作体验可前往:


04

结语


随着生成式AI技术的迅猛发展,我们正站在文学与科技交汇的新时代入口。生成式写作的未来,或许不在于独自取代人类,而是在于与人类携手,建立创作共生协议,探索更为广阔的创意疆域。


🔗 项目开源:

📜 论文: 

https://arxiv.org/abs/2503.05244


💻 仓库: 

https://github.com/X-PLUG/WritingBench


✍️ ModelScope在线体验:

https://modelscope.cn/studios/iic/DeepWriting


🤖 模型:

└─ Critic: https://www.modelscope.cn/models/iic/WritingBench-Critic-Model-Qwen-7B

└─ Writer-7B: https://www.modelscope.cn/models/iic/Writing-Model-Qwen-7B

└─ Writer-32B-thinking: https://www.modelscope.cn/models/iic/Writing-Model-Qwen-32B-thinking


点击阅读原文,即可跳转体验~




👇点击关注ModelScope公众号获取
更多技术信息~



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WritingBench AI写作 Qwen模型 创意写作
相关文章