一支烟一朵花 2025-02-20 07:30 上海
AI Agent:AI发展的新前沿
在Andrew看来,在所有AI技术趋势中,最令人兴奋的是代理AI工作流的兴起。他认为,如果要关注一项最重要的AI技术,那就是 AI Agent。
AI Agent的概念最初可能显得有些神秘和复杂,但Andrew通过具体的例子,向我们展示了代理AI的工作原理和潜力。
从零样本提示到代理工作流
为了理解代理AI的优势,我们首先需要了解目前大语言模型的主要使用方式:
零样本提示(zero-shot prompting)。
在这种方式下,我们给模型一个提示,让它直接生成输出,就像让一个人不经过思考和修改,一次性写出一篇完整的文章。
相比之下,代理工作流更像人类的思考和写作过程:
首先写一个大纲,决定是否需要进行网络研究
如果需要,下载相关网页并将信息输入大语言模型
写出初稿,阅读并批评初稿再修改草稿
这个过程可能需要多次循环,但最终会产生更高质量的输出。
Andrew提到,他的团队已经将这种工作流应用于处理复杂的法律文件、辅助医疗诊断,以及处理复杂的政府文书等任务,取得了比传统方法更好的结果。
AI Agent的性能优势
为了说明 AI Agent的优势,Andrew引用了一个基准测试的结果。
在OpenAI的Human Eval基准测试中,这个测试衡量了大语言模型解决编码难题的能力:
GPT-3.5: 48%正确率
GPT-4: 67%正确率
GPT-3.5使用代理工作流: 95%正确率
GPT-4使用代理工作流: 更高的正确率
这个结果清楚地展示了代理工作流带来的巨大性能提升。值得注意的是,GPT-3.5使用代理工作流甚至超过了单纯使用GPT-4的表现,这凸显了代理AI方法的潜力。