2024-10-03 19:28 河南
OpenAI融资66亿美金,280页PDF全面评估OpenAI o1预览版大型语言模型在多种复杂推理任务上的表现,以及与Agent的关系
OpenAI在其官网正式宣布获得最新66亿美元融资,估值1570亿美元(超过万亿人民币),成为名副其实的万亿独角兽。
我们以1570亿美元的估值筹集了66亿美元的新资金,以加速我们在使命上的进展。这笔新资金将使我们能够加倍投入我们在前沿人工智能研究的领导地位,增加计算能力,并继续构建帮助人们解决难题的工具。我们的目标是使高级智能成为一种广泛可获取的资源。我们感谢投资者对我们的信任,我们期待与我们的合作伙伴、开发者以及更广泛的社区合作,共同塑造一个由人工智能驱动的生态系统和未来,让每个人都受益。通过与包括美国及其盟国政府在内的关键合作伙伴合作,我们可以释放这项技术的全面潜力。
https://openai.com/index/scale-the-benefits-of-ai/
OpenAI这一里程碑事件标志着通用人工智能(AGI)的商业化进程再次加速。在最新超全280页的OpenAI o1预览版模型的AGI评估中,该模型在编程挑战、科学推理、语言处理和创造性问题解决等多个领域展现出接近甚至超越人类水平的能力:
在解决复杂的竞技编程问题上,成功率为83.3%,超过了许多人专家。
在生成连贯准确的放射学报告方面具有优越的能力,表现优于其他评估模型。
在高中水平的数学推理任务上准确率为100%,提供了详细的逐步解决方案。
在一般和专业领域(如医学)的自然语言推理能力方面具有先进的能力。
在芯片设计任务中表现出色,例如在EDA脚本生成和错误分析方面超过了专业模型。
在人类学和地质学方面表现出显著的熟练程度,展示了在这些专业领域中的深刻理解和推理。
在量化投资方面具有很强的能力。o1具有全面的金融知识和统计建模技能。
在社交媒体分析方面表现有效,包括情感分析和情绪识别。
评估方法论的示意图概览。展示了对o1预览版的五个主要评估领域:创造与设计、规划、推理、诊断和反思。每个领域都通过相关任务进行测试。这27个不同的任务评估了模型在多样的认知和现实世界挑战中的适应性和有效性。
代码生成:一个中等难度问题的编码测试演示案例,使用了o1预览版的解决方案。生成的代码在第一次尝试时通过了Leetcode自动判题系统的测试。
放射学:观察到o1预览版与人类写作模式非常接近,表现出清晰的组织和简洁的语言。
高中水平数学竞赛,代数。这个1级代数问题涉及到计算两个百分比值之间的正差值。黄色高光标记了o1预览版输出和参考答案中共享的中间步骤,而绿色高光强调了正确的最终答案。o1预览版在4秒内高效地完成了这个问题。
芯片设计,错误摘要与分析:比较ChipNeMo和o1预览版在评估fabric宏单元消耗的功率时的错误报告分析。虽然ChipNeMo提供了标准摘要,但o1预览版提供了更深入的分析,并为功率隔离和任务优先级排序提供了战略性建议,这对于硅设计中的功率优化至关重要。
LLM智能体(Agent)和OpenAI o1
在科学与工程中推进问题解决 大型语言模型智能体被设计用来处理需要顺序推理、规划和记忆的复杂任务。这些智能体(Agent)通常由四个关键部分组成:核心语言模型(“大脑”)、规划机制、记忆系统以及使用外部工具的能力。通过整合这些元素,LLM智能体可以分解复杂问题,制定策略,并根据反馈和新信息调整它们的方法。
OpenAI o1可能会改变LLM智能体的应用潜力。将LLM智能体与o1预览版的高级能力相结合,为解决复杂的科学与工程挑战提供了激动人心的可能性。o1预览版已经在多个领域展示了显著的熟练程度,从编码和数学推理到科学分析和创造性问题解决。当与LLM智能体的结构化方法增强时,o1可能有望解决科学研究和工程设计中更为复杂、多步骤的问题。
例如,在科学研究中,一个由o1驱动的LLM智能体可以通过将过程分解为文献回顾、假设形成、方法规划和数据分析策略等子任务,系统地处理实验设计。智能体的规划能力可以帮助概述长期研究项目,而其记忆系统可以在整个调查过程中保持连贯性,回忆相关的过去实验或相关发现。在工程领域,这样的智能体可以通过管理相互连接的组件、预测潜在问题和建议优化来协助复杂系统设计。LLM智能体的工具使用能力可以允许o1与专业工程软件接口,在设计过程中运行模拟或按需访问特定数据库。
此外,LLM智能体的自我反思和改进能力可以增强o1已经令人印象深刻的推理技能,允许在迭代设计过程或长期研究项目中不断改进解决方案。这在像材料科学或药物发现这样的领域可能特别有价值,因为需要系统地探索广阔的参数空间。
然而,需要注意的是,挑战依然存在。LLM智能体的当前限制,如上下文约束和长期规划的困难,需要被解决。
https://arxiv.org/pdf/2409.18486
Evaluation of OpenAI o1: Opportunities and Challenges of AGI
https://github.com/UGA-CAID/AGI-Bench.
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。