原创 孔某人 2024-11-24 16:47 北京
TL;DR
人生太短(严格来说是可用精力太少),我没时间用Claude 3.5 Sonnet 和o1-preview 以外的模型。
正文
本篇只是聊一个很小的话题:我自己在用什么模型。
这个其实并不是秘密,我经常在文章中讲我当前推荐用的模型和使用方式。但可能很多人不会关注我的大部分文章,以及最近24h内还被两个人问我在用什么模型,有没有在用国内的模型。所以就让我再来水一篇,完整说我的回答。
API与开发场景
我目前基本只用Claude 3.5 Sonnet的两个版本:
使用20240620版本是因为可获得性比20241022更好,能拿到的国内中转价格也更便宜。
使用20241022则是因为其效果更好,我对于更难更追求效果的任务会优先用该版本。
Sonnet使用的途径是找国内廉价的中转商。无他,就是想省这个钱而已。
但少数场景下o1系列确实会更强,例如说各种改错场景。虽然o1更贵,但我发现是值得去用它的。
o1-preview的使用途径也是找国内代理商的逆向版本,有价格封顶。不过可用性容量较低,我上一轮推荐这两个模型之后国内中转商的可用性就显著下降了。希望这次发文之后还能正常使用。
当然能用这两个模型也跟我目前做的方案的特性有关。
个人日常用途 Chat
日常使用下,便利性就变得重要了。从使用量来说,我仍在使用ChatGPT的gpt-4o,但仅限我觉得这个问题不算很难,gpt-4o已经能够搞定的场景。我平时几乎一直开一个ChatGPT的web窗口在桌面上。
真正面对一个上限很高的问题,以及在做workflow初步方案设计阶段的时候,现在是会找Claude来chat的。由于Claude账号封禁频繁,所以是找个第三方客户端接Claude的API来用。
我目前没在用ChatGPT canvas,因为它的UI交互做的不够方便,以及Cursor是一个更好的替代。是的,可以使用Cursor做编程以外的文字编辑。虽然我自己没这个需求,但别人有在这么用。
我目前没有用LLM辅助写作的习惯,最多是做一些观点调研时使用。以及在写作后改错别字和缺漏字时使用o1-preview。总体来说o1-preview的用量不大。
个人日常用途 开发相关
目前开发时用LLM比之前更多了,因为在Cursor中无论是要求修改或者开发一小段代码都比之前IDE更加方便。模型使用必然也是Claude 3.5 Sonnet 20241022。
有些关于编程的问答问题有些会直接在Cursor边栏中进行chat。
但有时候也会在单独的web窗口做一些技术方案调研,此时是用gpt-4o,主要还是因为方便。
个人日常用途 AI搜索
目前PC端搜索还是用Google的老习惯。
要搜索公众号体系的时候,会单独找来腾讯元宝的web端来用。
其他需求
我个人的需求覆盖很有限,有些方面我自己是不用的。这里简单列一些我认可的判断:
中文文化、中文文学、古文等相关中国文化较重的内容,中国的模型有优势,但到底哪家更好我不知道。
OpenAI官方说了:o1-mini在STEM(科学Science、技术Technology、工程Engineering和数学Mathematics)方面是好于o1-preview的,因为o1-preview其实只是中间检查点。但现在o1正式版迟迟不见面世,大家已经逐步忘了这点。所以在这类问题上应该用o1-mini,等o1正式版发布之后应该切换为o1正式版。
我什么时候切换惯用模型
相对来说我在开发场景下粘性更低一些。只要我相信一个模型更好,就会切换。不过认知一个模型需要过程,我也是到9月时候才开始重视Claude 3.5 Sonnet并开始大量使用的,相对来说我觉得切换算慢了,不过也跟我Q3并没有做太多开发有关。
对于新类型的模型认知需要过程,需要一些偶然因素和确实的效果提升,以o1-preview来说就是如此。现在大家认真尝试新模型的意愿度比一年前明显降低了,我也是如此。人生可用时间有限,我为什么要用可能有些烂的模型。整个社区都在靠群友推荐来筛选新产品了。
但我对于国内各模型和海外各模型的发展是有信心的,只是我没觉得它们发展得很快(指符合大家那种极速的预期)。我会定期关注一些横向比较,以及自己有时候也会做一些。
例如说最近一波已发布的类o1模型我就没有太多试用的兴趣,但他们发正式版的API的时候,我会去测试的。因为o1-preview目前实在太贵了,如果有效果接近的其他候选,我会将其纳入选择范围。
未来一个季度我建议关注的模型
OpenAI o1正式版,无需解释。
Gemini 1.5 Pro的下一个版本,已经在公测,但具体能力提升还有待于release之后进行分析。
国内的o1模仿模型。国内第一波o1复刻版肯定还有差距,对我来说是否能替代o1-preview是存疑的。我很担心国内第一波复刻过度关注于它的推理过程,而没有复刻其改错能力。目前o1系列对我的最大意义是其鹤立鸡群的改错能力。到底哪家符合要求,只能等各家正式发布(有API并不限量使用)之后进行测试才知道。
Claude 3.5 Opus目前仍无具体的时间表,而且就算发布了大概也用不起。我目前并不指望。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,获取联系方式请点击 -> 联系方式。
本文于2024.11.24首发于微信公众号