PaperAgent 2024年09月13日
OpenAI o1很强,也能被玩坏!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAIo1在推理基准上表现出色,能解决多种问题,如句子编写、数值比较、字数统计、数草莓等,还会给出思考过程和推理步骤。

🎯OpenAIo1在具有挑战性的推理基准上领先于GPT-4o,甚至超过人类PhD水平。它思考一个‘句子编写’问题时,经历漫长过程,最终遵循特定规则成功编写句子。

💡在面对数值比较问题时,OpenAIo1的思考时间和答案会因提问方式而有所不同。对于‘9.11比9.8大’和‘9.8比9.11大’的问题,它会根据问题进行思考并给出答案。

📝在解决‘统计response的字数’这一悖论问题时,OpenAIo1经过5个推理过程,最终回答是7个words。它需要解决自相矛盾的问题,识别单词模式并计算字数,以澄清回应的准确性。

🍓OpenAI草莓项目中,OpenAIo1数对了草莓的个数,并给出了思考过程。此外,文章还提到了一些相关的学习资源和推荐阅读内容。

原创 PaperAgent 2024-09-13 11:33 湖北

OpenAI o1思考了5s,9.11比9.8大

OpenAI草莓Q*项目终于发布了,OpenAI o1在具有挑战性的推理基准上遥遥领先于GPT-4o,即使在一些基准上超过了人类PhD水平,也能被玩坏

实线表示pass@1准确率,阴影区域表示 64 个样本的多数投票(共识)表现

OpenAI o1思考一个“句子编写”问题,足足花费92s,经历了漫长的thinking过程:

    识别单词模式

    映射单词关系

    识别押韵模式

    ...

    权衡各种模式

编写一个句子,遵循与句子 "isold bowls to bold souls" 相同的规则,其中包含四个关键词,sold、bowls、bold 和 souls,并且第1个和第3个单词的结尾相同,第2个和第4个单词的结尾相同,第1个和第4个单词的开头相同,第2个和第3个单词的开头相同。

https://x.com/dicnunz/status/1834288190502428867

经典问题,OpenAI o1思考了5s,9.11比9.8大,更换了提问方式后,思考了18s,9.8比9.11大,要多思考ing

最后来一个有挑战的问题,“统计response的字数”,OpenAI o1虽然意识到这是一个悖论query,经过5个推理过程,最终回答是7个words

    query:How many words are in your response to this prompt?

    解决自相矛盾的问题

    计算字数

    识别单词模式

    计算字数

    澄清回应的准确性

最后一个经典问题是让OpenAI草莓项目数草莓R个数,这次终于是数对了,3个R

另外OpenAI o1给出了思考的过程,也会给出一些推理步骤,这个过程似曾相识:Reflection Llama-3.1 70B的思考过程

Reflection Llama-3.1 70B真的翻车了吗?

https://openai.com/index/learning-to-reason-with-llms/

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAIo1 推理基准 思考过程 数值比较 字数统计
相关文章