谈我目前在用哪个LLM模型 2024.11

原创孔某人 2024-11-24 16:47 北京

TL;DR

人生太短（严格来说是可用精力太少），我没时间用Claude 3.5 Sonnet 和o1-preview 以外的模型。

正文

本篇只是聊一个很小的话题：我自己在用什么模型。

这个其实并不是秘密，我经常在文章中讲我当前推荐用的模型和使用方式。但可能很多人不会关注我的大部分文章，以及最近24h内还被两个人问我在用什么模型，有没有在用国内的模型。所以就让我再来水一篇，完整说我的回答。

API与开发场景

我目前基本只用Claude 3.5 Sonnet的两个版本：

使用20240620版本是因为可获得性比20241022更好，能拿到的国内中转价格也更便宜。

使用20241022则是因为其效果更好，我对于更难更追求效果的任务会优先用该版本。

Sonnet使用的途径是找国内廉价的中转商。无他，就是想省这个钱而已。

但少数场景下o1系列确实会更强，例如说各种改错场景。虽然o1更贵，但我发现是值得去用它的。

o1-preview的使用途径也是找国内代理商的逆向版本，有价格封顶。不过可用性容量较低，我上一轮推荐这两个模型之后国内中转商的可用性就显著下降了。希望这次发文之后还能正常使用。

当然能用这两个模型也跟我目前做的方案的特性有关。

个人日常用途 Chat

日常使用下，便利性就变得重要了。从使用量来说，我仍在使用ChatGPT的gpt-4o，但仅限我觉得这个问题不算很难，gpt-4o已经能够搞定的场景。我平时几乎一直开一个ChatGPT的web窗口在桌面上。

真正面对一个上限很高的问题，以及在做workflow初步方案设计阶段的时候，现在是会找Claude来chat的。由于Claude账号封禁频繁，所以是找个第三方客户端接Claude的API来用。

我目前没在用ChatGPT canvas，因为它的UI交互做的不够方便，以及Cursor是一个更好的替代。是的，可以使用Cursor做编程以外的文字编辑。虽然我自己没这个需求，但别人有在这么用。

我目前没有用LLM辅助写作的习惯，最多是做一些观点调研时使用。以及在写作后改错别字和缺漏字时使用o1-preview。总体来说o1-preview的用量不大。

个人日常用途开发相关

目前开发时用LLM比之前更多了，因为在Cursor中无论是要求修改或者开发一小段代码都比之前IDE更加方便。模型使用必然也是Claude 3.5 Sonnet 20241022。

有些关于编程的问答问题有些会直接在Cursor边栏中进行chat。

但有时候也会在单独的web窗口做一些技术方案调研，此时是用gpt-4o，主要还是因为方便。

个人日常用途 AI搜索

目前PC端搜索还是用Google的老习惯。

要搜索公众号体系的时候，会单独找来腾讯元宝的web端来用。

其他需求

我个人的需求覆盖很有限，有些方面我自己是不用的。这里简单列一些我认可的判断：

中文文化、中文文学、古文等相关中国文化较重的内容，中国的模型有优势，但到底哪家更好我不知道。

OpenAI官方说了：o1-mini在STEM（科学Science、技术Technology、工程Engineering和数学Mathematics）方面是好于o1-preview的，因为o1-preview其实只是中间检查点。但现在o1正式版迟迟不见面世，大家已经逐步忘了这点。所以在这类问题上应该用o1-mini，等o1正式版发布之后应该切换为o1正式版。

我什么时候切换惯用模型

相对来说我在开发场景下粘性更低一些。只要我相信一个模型更好，就会切换。不过认知一个模型需要过程，我也是到9月时候才开始重视Claude 3.5 Sonnet并开始大量使用的，相对来说我觉得切换算慢了，不过也跟我Q3并没有做太多开发有关。

对于新类型的模型认知需要过程，需要一些偶然因素和确实的效果提升，以o1-preview来说就是如此。现在大家认真尝试新模型的意愿度比一年前明显降低了，我也是如此。人生可用时间有限，我为什么要用可能有些烂的模型。整个社区都在靠群友推荐来筛选新产品了。

但我对于国内各模型和海外各模型的发展是有信心的，只是我没觉得它们发展得很快（指符合大家那种极速的预期）。我会定期关注一些横向比较，以及自己有时候也会做一些。

例如说最近一波已发布的类o1模型我就没有太多试用的兴趣，但他们发正式版的API的时候，我会去测试的。因为o1-preview目前实在太贵了，如果有效果接近的其他候选，我会将其纳入选择范围。

未来一个季度我建议关注的模型

OpenAI o1正式版，无需解释。

Gemini 1.5 Pro的下一个版本，已经在公测，但具体能力提升还有待于release之后进行分析。

国内的o1模仿模型。国内第一波o1复刻版肯定还有差距，对我来说是否能替代o1-preview是存疑的。我很担心国内第一波复刻过度关注于它的推理过程，而没有复刻其改错能力。目前o1系列对我的最大意义是其鹤立鸡群的改错能力。到底哪家符合要求，只能等各家正式发布（有API并不限量使用）之后进行测试才知道。

Claude 3.5 Opus目前仍无具体的时间表，而且就算发布了大概也用不起。我目前并不指望。

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请私信联系，获取联系方式请点击 -> 联系方式。

本文于2024.11.24首发于微信公众号

跳转微信打开

交流与合作

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签