智源社区 2024年11月17日
性能提升在即!吴恩达谈 LLM 新方向:优化智能体工作流
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大语言模型(LLMs)正在从以回答问题为主转向适应智能体工作流,这将显著提升智能体性能。LLMs 过去主要用于提供良好的用户体验,例如回答问题或遵循指令。但智能体工作负载需要不同的模型行为,例如反思输出、使用工具、制定计划和协作。模型制造商正优化 LLMs 以支持工具使用,例如函数调用,甚至允许模型操作计算机。吴恩达教授认为,开发人员可以通过提示工程、模型微调和模型原生支持等方式提升智能体性能,未来几年智能体性能将大幅提升。

🤔 **LLMs 发展趋势:**从最初以回答问题为主要目标,逐渐转向优化以适应智能体工作流,例如反思输出、使用工具、制定计划和多智能体协作。

🧰 **工具使用与函数调用:**LLMs 逐渐具备调用函数的能力,例如检索信息、执行代码、发送邮件等,甚至可以通过鼠标点击和键盘操作计算机,这极大地扩展了 LLMs 的应用范围。

🚀 **智能体性能提升策略:**开发人员可以通过提示工程、针对特定智能体功能的模型微调以及模型原生支持等方式来提升智能体性能。

💡 **模型原生支持:**主要 LLMs 提供商正在模型中直接构建工具使用和计算机操作等能力,例如 OpenAI 的 o1-preview 高级推理功能,这将进一步推动智能体推理和规划能力的发展。

📈 **未来展望:**吴恩达教授认为,未来几年内,智能体性能将大幅提升,LLMs 将在智能体工作流中发挥越来越重要的作用。

【编者按】从为用户提供优质问答体验,到如今逐渐朝着适应智能体(agent)工作流优化发展,大语言模型(LLMs)正经历着深刻的变革。

日前,美国计算机科学家、斯坦福大学计算机科学系和电子工程系副教授、DeepLearning AI 创始人吴恩达(Andrew Ng)深入剖析了这一转变趋势并分享了他关于智能体性能提升前景的见解

在博客中,他描述了当前 LLMs 发展的新趋势,指出 LLMs 在智能体工作中的多样应用场景以及开发人员在不同应对策略下的具体实践情况,并对智能体未来发展做出了乐观展望。

学术头条在不改变原文大意的情况下,对发布内容做了简单的编译。内容如下:

亲爱的朋友们:

大语言模型(LLMs)通常是为回答人们的问题而优化的。但现在的趋势是,对模型进行优化也是为了适应智能体工作流。这将大大提高智能体性能!

继 ChatGPT 在回答问题方面取得巨大成功之后,大量 LLMs 的开发都集中在提供良好的消费者体验上。因此,LLMs 被微调为回答问题(“莎士比亚为什么写《麦克白》?”)或遵循人类提供的指令(“解释莎士比亚为什么写《麦克白》”)。大部分用于指令微调的数据集都会引导模型为人类编写的问题和指令提供更有帮助的回答,这些问题和指令就是人们可能会向面向消费者的 LLMs 提出的问题和指令,比如 ChatGPT、Claude 或 Gemini 的网络接口所提供的问题和指令。

但是,智能体工作负载需要不同的行为。人工智能软件不是直接为消费者生成响应,而是在迭代工作流中使用模型来反思自己的输出、使用工具、编写计划,并在多智能体环境中进行协作。主要的模型制造商也在不断优化模型,以便用于 AI 智能体。

以工具使用(或函数调用)为例。如果向 LLMs 询问当前的天气情况,它无法从训练数据中获得所需的信息。相反,它可能会生成一个 API 调用请求来获取该信息。甚至在 GPT-4 原生支持函数调用之前,应用程序开发人员就已经在使用 LLMs 生成函数调用了,不过是通过编写更复杂的提示(如 ReAct 提示的变体),告诉 LLMs 有哪些函数可用,然后让 LLMs 生成一个字符串,由单独的软件例程进行解析(或许使用正则表达式),以确定是否要调用某个函数。

在 GPT-4 之后,生成此类调用变得更加可靠,随后许多其他机型也原生支持函数调用。如今,LLMs 可以决定调用函数来搜索用于检索增强生成(RAG)的信息、执行代码、发送电子邮件、在线下订单等。

最近,Anthropic 发布了一个能够在计算机上使用的模型版本,它可以使用鼠标点击和击键来操作计算机(通常是虚拟机)。我很喜欢玩这个演示。虽然其他团队一直在促使 LLMs 使用计算机来构建新一代 RPA(机器人流程自动化)应用,但一家主要 LLMs 提供商对 computer use 的原生支持是向前迈出的一大步。这将对许多开发人员有所帮助!

随着智能体工作流的成熟,我看到了以下几点:

    首先,许多开发人员正在提示 LLMs 执行他们想要的智能体行为。这样可以进行快速、丰富的探索!

    在数量少得多的情况下,那些正在开发非常有价值应用的开发人员会对 LLMs 进行微调,以便更可靠地执行特定的智能体功能。例如,尽管许多 LLMs 本机支持函数调用,但它们是将可用函数的描述作为输入,然后(希望)生成输出 tokens 来请求正确的函数调用。对于关键任务应用程序来说,生成正确的函数调用非常重要,针对应用程序的特定函数调用微调模型可显著提高可靠性。(但请避免过早优化!如今,我仍然看到很多团队在进行微调时,可能应该先花更多时间进行提示,然后再采取这种做法)。

    最后,当工具使用或 computer use 等能力对许多开发人员来说很有价值时,主要的 LLMs 提供商就会直接在其模型中构建这些能力。尽管 OpenAI o1-preview 的高级推理功能可以帮助消费者,但我预计它对智能体推理和规划的作用会更大。

大多数 LLMs 已针对回答问题进行了优化,主要是为了提供良好的消费者体验,我们已经能够将它们“嫁接”到复杂的智能体工作流中,以构建有价值的应用。为支持智能体中的特定操作而构建 LLMs 的趋势将大大提高智能体性能。我相信,在未来几年内,智能体性能将朝着这个方向大幅提升。

继续学习!

原文链接:
https://www.deeplearning.ai/the-batch/issue-275/
翻译:阮文韵
如需转载或投稿,请直接在公众号内留言

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 智能体 LLMs 函数调用 吴恩达
相关文章