OpenAI o1很强，也能被玩坏！

PaperAgent 2024年09月13日

OpenAI o1很强，也能被玩坏！

OpenAIo1在推理基准上表现出色，能解决多种问题，如句子编写、数值比较、字数统计、数草莓等，还会给出思考过程和推理步骤。

🎯OpenAIo1在具有挑战性的推理基准上领先于GPT-4o，甚至超过人类PhD水平。它思考一个‘句子编写’问题时，经历漫长过程，最终遵循特定规则成功编写句子。

💡在面对数值比较问题时，OpenAIo1的思考时间和答案会因提问方式而有所不同。对于‘9.11比9.8大’和‘9.8比9.11大’的问题，它会根据问题进行思考并给出答案。

📝在解决‘统计response的字数’这一悖论问题时，OpenAIo1经过5个推理过程，最终回答是7个words。它需要解决自相矛盾的问题，识别单词模式并计算字数，以澄清回应的准确性。

🍓OpenAI草莓项目中，OpenAIo1数对了草莓的个数，并给出了思考过程。此外，文章还提到了一些相关的学习资源和推荐阅读内容。

原创 PaperAgent 2024-09-13 11:33 湖北

OpenAI o1思考了5s，9.11比9.8大

OpenAI草莓Q*项目终于发布了，OpenAI o1在具有挑战性的推理基准上遥遥领先于GPT-4o，即使在一些基准上超过了人类PhD水平，也能被玩坏

实线表示pass@1准确率，阴影区域表示 64 个样本的多数投票（共识）表现

OpenAI o1思考一个“句子编写”问题，足足花费92s，经历了漫长的thinking过程：

识别单词模式

映射单词关系

识别押韵模式

...

权衡各种模式

编写一个句子，遵循与句子 "isold bowls to bold souls" 相同的规则，其中包含四个关键词，sold、bowls、bold 和 souls，并且第1个和第3个单词的结尾相同，第2个和第4个单词的结尾相同，第1个和第4个单词的开头相同，第2个和第3个单词的开头相同。

https://x.com/dicnunz/status/1834288190502428867

经典问题，OpenAI o1思考了5s，9.11比9.8大，更换了提问方式后，思考了18s，9.8比9.11大，要多思考ing

最后来一个有挑战的问题，“统计response的字数”，OpenAI o1虽然意识到这是一个悖论query，经过5个推理过程，最终回答是7个words。

query：How many words are in your response to this prompt?

解决自相矛盾的问题

计算字数

识别单词模式

计算字数

澄清回应的准确性

最后一个经典问题是让OpenAI草莓项目数草莓R个数，这次终于是数对了，3个R

另外OpenAI o1给出了思考的过程，也会给出一些推理步骤，这个过程似曾相识：Reflection Llama-3.1 70B的思考过程

Reflection Llama-3.1 70B真的翻车了吗？

https://openai.com/index/learning-to-reason-with-llms/

推荐阅读

• 对齐LLM偏好的直接偏好优化方法：DPO、IPO、KTO

• 一篇搭建AI大模型应用平台架构的全面指南

• RAG全景图：从RAG启蒙到高级RAG之36技，再到终章Agentic RAG！

• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1.2万字，20+文献，27张图）

欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAIo1 推理基准思考过程数值比较字数统计

相关文章

OpenAI o1预览模型发布：推理能力更强可达理科博士生水准

快讯! OpenAI“草莓”发布，AI展示博士级智能

OpenAI发布全新o1模型：它会像人类一样“深思熟虑”

OpenAI 发布最强模型 o1，打破 AI 瓶颈开启新时代，GPT-5 可能永远不会来了

OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代，GPT-5 可能永远不会来了

OpenAI最强模型o1，仍分不出“9.11和9.8哪个大”

OpenAI o1比博士还“聪明”，全球11位AI大咖怎么看？

O1打开了大模型推理能力的天花板，但是距离AGI还远的很

OpenAI新系列问世，大模型是否能走向下一个阶段？近日，OpenAI在官网发布公告称，开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI ...

OpenAI新模型达到博士水平？我找几位博士测试了一下