孔某人的低维认知 2024年11月24日
谈我目前在用哪个LLM模型 2024.11
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文作者讲述自己使用模型的情况,包括API与开发场景、个人日常用途及对一些模型的看法等,还提到未来关注的模型及交流合作信息。

作者在API与开发场景中,基本只用Claude 3.5 Sonnet的两个版本,少数场景用o1系列,使用途径为找国内中转商或代理商。

个人日常用途方面,Chat日常使用ChatGPT的gpt-4o,复杂问题找Claude;开发时用Claude 3.5 Sonnet 20241022,有时也用gpt-4o;AI搜索用Google和腾讯元宝。

作者认为中文文化等内容中国模型有优势,o1-mini在STEM方面好于o1-preview,未来一个季度建议关注一些模型。

原创 孔某人 2024-11-24 16:47 北京

TL;DR


正文

本篇只是聊一个很小的话题:我自己在用什么模型。

这个其实并不是秘密,我经常在文章中讲我当前推荐用的模型和使用方式。但可能很多人不会关注我的大部分文章,以及最近24h内还被两个人问我在用什么模型,有没有在用国内的模型。所以就让我再来水一篇,完整说我的回答。

API与开发场景

我目前基本只用Claude 3.5 Sonnet的两个版本:


Sonnet使用的途径是找国内廉价的中转商。无他,就是想省这个钱而已。

但少数场景下o1系列确实会更强,例如说各种改错场景。虽然o1更贵,但我发现是值得去用它的。

o1-preview的使用途径也是找国内代理商的逆向版本,有价格封顶。不过可用性容量较低,我上一轮推荐这两个模型之后国内中转商的可用性就显著下降了。希望这次发文之后还能正常使用。

当然能用这两个模型也跟我目前做的方案的特性有关。

个人日常用途 Chat

日常使用下,便利性就变得重要了。从使用量来说,我仍在使用ChatGPT的gpt-4o,但仅限我觉得这个问题不算很难,gpt-4o已经能够搞定的场景。我平时几乎一直开一个ChatGPT的web窗口在桌面上。

真正面对一个上限很高的问题,以及在做workflow初步方案设计阶段的时候,现在是会找Claude来chat的。由于Claude账号封禁频繁,所以是找个第三方客户端接Claude的API来用。

我目前没在用ChatGPT canvas,因为它的UI交互做的不够方便,以及Cursor是一个更好的替代。是的,可以使用Cursor做编程以外的文字编辑。虽然我自己没这个需求,但别人有在这么用。

我目前没有用LLM辅助写作的习惯,最多是做一些观点调研时使用。以及在写作后改错别字和缺漏字时使用o1-preview。总体来说o1-preview的用量不大。

个人日常用途 开发相关

目前开发时用LLM比之前更多了,因为在Cursor中无论是要求修改或者开发一小段代码都比之前IDE更加方便。模型使用必然也是Claude 3.5 Sonnet 20241022。

有些关于编程的问答问题有些会直接在Cursor边栏中进行chat。

但有时候也会在单独的web窗口做一些技术方案调研,此时是用gpt-4o,主要还是因为方便。

个人日常用途 AI搜索

目前PC端搜索还是用Google的老习惯。

要搜索公众号体系的时候,会单独找来腾讯元宝的web端来用。

其他需求

我个人的需求覆盖很有限,有些方面我自己是不用的。这里简单列一些我认可的判断:

中文文化、中文文学、古文等相关中国文化较重的内容,中国的模型有优势,但到底哪家更好我不知道。

OpenAI官方说了:o1-mini在STEM(科学Science、技术Technology、工程Engineering和数学Mathematics)方面是好于o1-preview的,因为o1-preview其实只是中间检查点。但现在o1正式版迟迟不见面世,大家已经逐步忘了这点。所以在这类问题上应该用o1-mini,等o1正式版发布之后应该切换为o1正式版。

我什么时候切换惯用模型

相对来说我在开发场景下粘性更低一些。只要我相信一个模型更好,就会切换。不过认知一个模型需要过程,我也是到9月时候才开始重视Claude 3.5 Sonnet并开始大量使用的,相对来说我觉得切换算慢了,不过也跟我Q3并没有做太多开发有关。

对于新类型的模型认知需要过程,需要一些偶然因素和确实的效果提升,以o1-preview来说就是如此。现在大家认真尝试新模型的意愿度比一年前明显降低了,我也是如此。人生可用时间有限,我为什么要用可能有些烂的模型。整个社区都在靠群友推荐来筛选新产品了。

但我对于国内各模型和海外各模型的发展是有信心的,只是我没觉得它们发展得很快(指符合大家那种极速的预期)。我会定期关注一些横向比较,以及自己有时候也会做一些。

例如说最近一波已发布的类o1模型我就没有太多试用的兴趣,但他们发正式版的API的时候,我会去测试的。因为o1-preview目前实在太贵了,如果有效果接近的其他候选,我会将其纳入选择范围。

未来一个季度我建议关注的模型

OpenAI o1正式版,无需解释。

Gemini 1.5 Pro的下一个版本,已经在公测,但具体能力提升还有待于release之后进行分析。

国内的o1模仿模型。国内第一波o1复刻版肯定还有差距,对我来说是否能替代o1-preview是存疑的。我很担心国内第一波复刻过度关注于它的推理过程,而没有复刻其改错能力。目前o1系列对我的最大意义是其鹤立鸡群的改错能力。到底哪家符合要求,只能等各家正式发布(有API并不限量使用)之后进行测试才知道。

Claude 3.5 Opus目前仍无具体的时间表,而且就算发布了大概也用不起。我目前并不指望。


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,获取联系方式请点击 -> 联系方式

本文于2024.11.24首发于微信公众号

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

模型使用 Claude 3.5 Sonnet o1系列 日常用途
相关文章