QwQ在实际workflow中的初步评估，及与o1模型的比较 2024.11

原创孔某人 2024-11-29 14:04 北京

QwQ-32B-Preview没有超过o1-preview/mini，但它确实不错。我们需要QwQ-72B和QwQ-max。

截至本文写作时，QwQ已经发布了一天半，我从昨天早上开始到现在也用了快一整天。

之前几个o1的模仿模型我都没有去测试，一方面是没开放API能让大家敞开用，另外也是模型规模较小。这次QwQ则是32B起步，并且直接开源，虽然官方还没有提供API，但第三方厂商已经提供了，这使得在实际应用中进行使用成为可能。

一方面OpenAI确实还需要给一些压力，o1正式版已经明显delay，没有竞争者只会让OpenAI继续拖延到西方年底假期前，甚至假期之后。

另外o1系列的价格也是贵的离谱，我并不觉得这个定价反映了其实际成本。从实际使用角度，是需要一些o1的廉价替代方案的。

这些都让我对QwQ-32B-Preview很有兴趣。

2.1、评估场景和o1-preview baseline简介

是在我的一个真实场景中进行评估的，该场景主要是文字改错，之前使用o1-preview构建workflow来完成。即使如此，都还无法做到全自动，仍然需要人工进行一些干预。

由于目前使用o1-preview的最廉价方式是采用逆向web端实现的，其收费目前是按次计费，与token量无关，所以我对于o1-preview每次请求的输入量也是开到差不多它能接受的最大水平，再大就会因为输出过长而导致逆向的稳定性和效果都下降。

即使面对如此高压的情况下，o1-preview仍然表现不错，这也是我最终会选择使用这么贵的o1-preview来实现的原因。

该方案我并没有打算开源或者公开，所以场景介绍也就只能说到这里了。

这个workflow是基本可以直接平移给QwQ-32B，但由于o1 prompt的要求是与其他模型不同的：它并不展示思考过程，也并不建议硬指定思考过程，最多只能给其思考过程提供一些参考过程，但内部到底有没有按要求执行是无法精确判断的。

但QwQ-32B和其他所有追赶模型相同，它并没有一个隐藏的思考过程，也并没有在最终重新整理回答的习惯，所以它的prompt更接近于传统LLM模型使用的感觉。

在使用中，我发现QwQ-32B并不会体现出o1那种不管要求是什么都要思考一下的自主性，反而是对于输出形式和过程的指令更倾向于直接遵从，这让我感觉我的具体CoT步骤指定可能覆盖了它原有的思考过程。我目前仍然没有很好的方式来在指定过程的情况下能让其在每个步骤之内保持其原有的长思考能力。

所以我选择为QwQ-32B调整了一下prompt要求，我觉得这大概率对于所有目前的追赶模型都是需要的，这些追赶模型可能会更相似一些。

目前可以直接调用的供应商有SiliconFlow与OpenRouter上的几家，但这些供应商的效果都有一点差异，特别是当temperature较低的时候，在使用中要留意这点，并考虑使用多个供应商。

即使在单独为其准备prompt的条件下，QwQ以及其他模型与o1-preview相比仍有差距，所以我又对QwQ-32B-Preview、o1-mini、Claude-3.5-Sonnet都大幅降低了每次输入量，来降低问题的难度。

从结果来看，QwQ-32B-Preview确实具有超过普通LLM的改错能力，明显好于Claude-3.5-Sonnet。Claude-3.5-Sonnet的问题主要在于对于待修改问题的召回不足，但指令遵从要好于QwQ-32B-Preview。

即使在更低输入量下，QwQ-32B-Preview在召回率和准确率方面仍然明显差于o1-preview，在召回的结果中，仍然有明显的没有遵从指令要求的情况。给我的感觉像是那种模型综合智力不够/模型规模不够大时表现的那种哪哪都有问题的感觉。

如果再把o1-mini拿进来比较，则它在该场景下是各方面都好于QwQ-32B-Preview的，但仍然距离o1-preview有差距，降低了输入量之后也是如此。

所以该场景下的综合排序大致是：o1-preview >> o1-mini > QwQ-32B-Preview > Claude-3.5-Sonnet。

这其中QwQ-32B-Preview的价格是明显低于其他模型的。

QwQ-32B-Preview在改错方面基本符合我对追赶模型的期待，在这方面它比Claude-3.5-Sonnet有用，但仍然不够好，即使考虑成本因素，也无法让我替换掉o1-preview。

但我觉得它综合能力的不足可以通过使用更大规模的模型来有所改善，我很期待QwQ-72B、甚至是规模对标Qwen-max的QwQ-max模型的效果。它们的价格再贵也肯定是大幅低于o1-preview的。

从QwQ-32B-Preview的效果来看，我没有太多使用其他32B以下的追赶模型的兴趣。

就在我为QwQ尝试迭代prompt的时候，发现迭代prompt改进点对于QwQ模型帮助有限，但对于o1-preview模型来说却是有明显提高的……

本来我的目标是尝试构建一个o1-preview方案的廉价替代，但最终却发现这两者的效果差距进一步拉大了。

o1-preview的效果不好可能是我prompt迭代不够的问题，而QwQ的效果不好可能是它自己的问题。（当然也可能是我们没找到如何有效prompt QwQ模型的方式）

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请私信联系，获取联系方式请点击 -> 联系方式。

本文于2024.11.28首发于微信公众号