OpenAI 的降智毒招，和我的应对策略

原创 ElfeXu 2025-02-03 20:04 上海

OpenAI 悄咪咪给中国区账号降智这招实在太毒了

上一篇文章我贴了张 o3-mini-high 翻车的截图并嘲讽，收到群友反馈——你的账号不会是被降智了吧？怎么会思考时间那么短呢？

作为对比，群友贴出她和 o 对话的截图，每个都思考十几二十秒，一点不敷衍！

原来 OpenAI 现在如果判定账号是中国来的，也不封你，就悄咪咪给你降智。
难怪过去几个月里，我一直都觉得 o 没有 Claude 好用，主力助手已切换成 Claude。
这招实在是太毒了。OpenAI 它 Plus 会员费照收，因为效果不够好我用得少了、它服务器负担还轻了……被降智的账号主人都是大冤种啊??

可是，我独立账号、独立 IP，不应该有问题呀？

网友支招：你用 4o 让它画张图，能画就证明没被降智。
另一网友支招：降智是因为识别了我们在中国区。你对它提问让它提供当地实时新闻，如果联网搜索了美国的新闻就没事。

我带着满头黑人问号去尝试——

画一张哈士奇在海边追飞盘的图，可以

搜索当地实时新闻并总结评论，给的是西雅图新闻的汇总，可以

“看见没有！没被降智！o 就是……” 我愤愤不平再次问 o 昨天的问题，竟然，o 开始用英文进行长达 20 秒的思考，并给出了看上去还不错的回答。
赶紧再做两个测试，都是英文长考几十秒。

这么说来，之前我的账号真的是被降智了？到底是 OpenAI 有意为之还是程序 BUG （草台班子出这种差错我也毫不感到意外）？
可为啥现在又醒过来了呢？让它画图或查当地新闻是什么老中医操作？

看在似乎账号智商升回来的份上，我就再续订几个月吧。但真的是有被这个骗子伤到。CloseAI！如果你再降智，如果满血 O3 效果没惊艳到我，那——现在世界上已经有很多其它选择，BYE～～

这件事引发我思考两个问题：

为什么我竟然一直都没有怀疑是账号被降智？到底是接收外部信息的信息源出了问题（确实最近半年对海外 AI 的消息关注的少了），还是我的选择性忽视造成了偏见？

今后当我们越来越重度使用 AI，如果因为某些失误、或者某些邪恶方的使坏，导致用了错误的模型，那会面临怎样的严重后果（我这次甚至因此对 AI 进展的可能性都产生了误判）？我们要怎样才能保证辨别的能力？

我分别和 o1/o3-mini-high/r1 探讨，它们都提到了要多重验证、要习惯性质疑等等；r1 给出了定期进行基准测试的建议。

基准测试？

好主意！我应该用自己的基准测试，来找到最适合自己的模型。毕竟，我并没有走向星辰大海的具体问题。[1]我希望的，无非是 AI 不断启发我的认知，给我带来灵感，顺便在重复性劳动（例如编程）上做我的牛马。各模型在“人类的最后一次测试”中得分多少，和我又有什么关系呢，得分高的未必适合我。

说干就干。我告诉 o1/o3-mini-high/r1 我的偏好，请它们帮我生成 AI 模型的基准测试题。

看上去没有被降智的 o3-mini-high （思考了 17 秒）表现糟糕，生成的题目非常无趣；r1 的题最有创意也最癫，o1 的更实用一些。我准备哪天无聊了就去找 AI 聊聊这些有意思的问题。大家如果尝试了，欢迎也把结果分享出来。

上下滑动查看图片

最有创意但也最癫的 r1

o1 表现不错

o3-mini-high 最无聊了

在评估上，o1 提到的准确、清晰、相关等等都是好无聊的指标，我都已经说了我对错误容忍度高，它还给我这些，有一股乖学生的傻气。相比之下，疯疯癫癫的疑似 ADHD 患者 r1 设计的维度就深得我心：

更有意思的是 r1 还给我写了个执行工具包，并且在包里自作主张添加了每周一天仅用纸笔的“认知斋戒日”。

当然，这太癫了，只能看着玩儿。我才不会在每个月的满月日去计算什么神神叨叨的认知熵值呢。

但，这又激发了我另一个灵感——
我是不是应该让 r1/o1，给我也设计一套我的碳基大脑的基准测试题？

没错～～我说干就干又去问 r1/o1 了。结果如何？很有趣。下次再分享喽～～

我是在技术和教育圈来回串的贪玩的好奇星人。欢迎点赞点收藏关注加星，近期我的 DeepSeek 话题列表已经堆积了十来个话题，会勤快更新的。也期待多多评论区交流。

拓展阅读：

[1]:使用 o3？我的钱包和脑子都不够

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签