原创 ElfeXu 2025-02-03 20:04 上海
OpenAI 悄咪咪给中国区账号降智这招实在太毒了
上一篇文章我贴了张 o3-mini-high 翻车的截图并嘲讽,收到群友反馈——你的账号不会是被降智了吧?怎么会思考时间那么短呢?
作为对比,群友贴出她和 o 对话的截图,每个都思考十几二十秒,一点不敷衍!
原来 OpenAI 现在如果判定账号是中国来的,也不封你,就悄咪咪给你降智。
难怪过去几个月里,我一直都觉得 o 没有 Claude 好用,主力助手已切换成 Claude。
这招实在是太毒了。OpenAI 它 Plus 会员费照收,因为效果不够好我用得少了、它服务器负担还轻了……被降智的账号主人都是大冤种啊??
可是,我独立账号、独立 IP,不应该有问题呀?
网友支招:你用 4o 让它画张图,能画就证明没被降智。
另一网友支招:降智是因为识别了我们在中国区。你对它提问让它提供当地实时新闻,如果联网搜索了美国的新闻就没事。
我带着满头黑人问号去尝试——
画一张哈士奇在海边追飞盘的图,可以
搜索当地实时新闻并总结评论,给的是西雅图新闻的汇总,可以
“看见没有!没被降智!o 就是……” 我愤愤不平再次问 o 昨天的问题,竟然,o 开始用英文进行长达 20 秒的思考,并给出了看上去还不错的回答。
赶紧再做两个测试,都是英文长考几十秒。
这么说来,之前我的账号真的是被降智了?到底是 OpenAI 有意为之还是程序 BUG (草台班子出这种差错我也毫不感到意外)?
可为啥现在又醒过来了呢?让它画图或查当地新闻是什么老中医操作?
看在似乎账号智商升回来的份上,我就再续订几个月吧。但真的是有被这个骗子伤到。CloseAI!如果你再降智,如果满血 O3 效果没惊艳到我,那——现在世界上已经有很多其它选择,BYE~~
这件事引发我思考两个问题:
为什么我竟然一直都没有怀疑是账号被降智?到底是接收外部信息的信息源出了问题(确实最近半年对海外 AI 的消息关注的少了),还是我的选择性忽视造成了偏见?
今后当我们越来越重度使用 AI,如果因为某些失误、或者某些邪恶方的使坏,导致用了错误的模型,那会面临怎样的严重后果(我这次甚至因此对 AI 进展的可能性都产生了误判)?我们要怎样才能保证辨别的能力?
我分别和 o1/o3-mini-high/r1 探讨,它们都提到了要多重验证、要习惯性质疑等等;r1 给出了定期进行基准测试的建议。
基准测试?
好主意!我应该用自己的基准测试,来找到最适合自己的模型。毕竟,我并没有走向星辰大海的具体问题。[1]我希望的,无非是 AI 不断启发我的认知,给我带来灵感,顺便在重复性劳动(例如编程)上做我的牛马。各模型在“人类的最后一次测试”中得分多少,和我又有什么关系呢,得分高的未必适合我。
说干就干。我告诉 o1/o3-mini-high/r1 我的偏好,请它们帮我生成 AI 模型的基准测试题。
看上去没有被降智的 o3-mini-high (思考了 17 秒)表现糟糕,生成的题目非常无趣;r1 的题最有创意也最癫,o1 的更实用一些。我准备哪天无聊了就去找 AI 聊聊这些有意思的问题。大家如果尝试了,欢迎也把结果分享出来。
上下滑动查看图片
最有创意但也最癫的 r1
o1 表现不错
o3-mini-high 最无聊了
在评估上,o1 提到的准确、清晰、相关等等都是好无聊的指标,我都已经说了我对错误容忍度高,它还给我这些,有一股乖学生的傻气。相比之下,疯疯癫癫的疑似 ADHD 患者 r1 设计的维度就深得我心:
更有意思的是 r1 还给我写了个执行工具包,并且在包里自作主张添加了每周一天仅用纸笔的“认知斋戒日”。
当然,这太癫了,只能看着玩儿。我才不会在每个月的满月日去计算什么神神叨叨的认知熵值呢。
但,这又激发了我另一个灵感——
我是不是应该让 r1/o1,给我也设计一套我的碳基大脑的基准测试题?
没错~~我说干就干又去问 r1/o1 了。结果如何?很有趣。下次再分享喽~~
我是在技术和教育圈来回串的贪玩的好奇星人。欢迎点赞点收藏关注加星,近期我的 DeepSeek 话题列表已经堆积了十来个话题,会勤快更新的。也期待多多评论区交流。
拓展阅读:
[1]:使用 o3?我的钱包和脑子都不够