原创一支烟一朵花 2024-12-14 07:31 上海

人工智能(AI)正在以前所未有的速度重塑我们的世界。　

作为一项通用技术,AI就像电力一样,正在渗透到各行各业,创造出无数新的可能性。　

本文将基于AI领域著名专家Andrew Ng的最新演讲,全面剖析当前AI领域的重要趋势、技术突破及其带来的影响。　

将深入探讨AI技术栈的演进、代理AI工作流的兴起、大语言模型的新发展,以及视觉AI等新兴领域的机遇。　

也将讨论AI发展过程中面临的挑战,以及如何负责任地推动AI创新。　

AI技术栈的演进

AI技术栈的层次结构

要全面理解AI的发展,我们首先需要认识AI技术栈的结构。Andrew Ng将AI技术栈分为以下几个层次:　

半导体层:这是最底层,为AI提供计算能力的硬件基础。

云基础设施层:包括各种云服务,如Snowflake等。

基础模型训练层:负责训练大型AI模型。

模型层:各种AI模型,如大语言模型等。

应用层:基于AI模型开发的各种应用。

价值分布的变化

Andrew指出,尽管媒体和社交网络的关注点主要集中在技术层面(如基础模型和模型层),但实际上,最大的价值可能产生于应用层。这是因为应用层直接面向最终用户,能够创造更多的收入和价值。　

这一观点提醒我们,在关注AI技术突破的同时,也不应忽视如何将这些技术转化为实际应用,为用户创造价值。对于创业者和投资者来说,这意味着在AI应用层可能存在更多的商业机会。　

技术栈中新兴的AI Agent协调层

随着AI Agent的兴起,Andrew提到了一个正在形成的新层次:AI Agent协调层　

这一层的出现使得开发者能够更容易地构建复杂的AI应用。像LangChain这样的工具就是这一层的代表,它们正在变得越来越"代理化",例如通过Langrage等技术。　

这个新兴的协调层对于AI生态系统的发展具有重要意义。它可能会大大降低开发复杂AI应用的门槛,使得更多的开发者能够参与到AI应用的创新中来。　

AI开发模式的革新

快速迭代:AI开发的新范式

Andrew强调,得益于生成式AI的发展,AI应用的开发速度正在显著提升。　

他举例说明,过去开发一个情感分析模型可能需要6-12个月,而现在使用生成式AI,可能只需要10天左右就能完成。　

这种开发速度的提升带来了几个重要的变化:　

快速实验成为发明的新途径

:由于开发周期大大缩短,团队可以更快地尝试新想法,快速验证概念。

评估(Evals)成为新的瓶颈

:在传统的监督学习中,收集测试数据只是整个数据收集过程的一小部分。

但在使用大语言模型的应用中,如果没有训练数据的需求,那么收集测试数据就成为了主要的时间成本。

并行开发和数据收集

:新的开发工作流程往往是构建原型和收集数据并行进行,而不是按顺序进行。

"快速行动,负责任地行动"

Andrew提出了一个新的开发理念:　

"快速行动,负责任地行动"(Move fast and be responsible)　

这是对过去"快速行动,打破常规"(Move fast and break things)理念的改进。　

在这种新的理念下,团队可以快速原型设计、评估和测试,但同时也要确保在向更广泛的世界发布任何可能造成损害或重大伤害的东西之前,进行充分的测试和评估。　

Andrew认为,聪明的团队能够以非常负责任的方式快速构建和发布产品。　

这种方法平衡了创新速度和责任,对于AI这样一个潜在影响巨大的技术领域来说尤为重要。它提醒我们,在追求快速发展的同时,也要充分考虑AI应用可能带来的社会影响和伦理问题。　

AI Agent工作流的兴起

AI Agent:AI发展的新前沿

在Andrew看来,在所有AI技术趋势中,最令人兴奋的是代理AI工作流的兴起。他认为,如果要关注一项最重要的AI技术,那就是代理AI。　

代理AI的概念最初可能显得有些神秘和复杂,但Andrew通过具体的例子,向我们展示了代理AI的工作原理和潜力。　

从零样本提示到代理工作流

为了理解代理AI的优势,我们首先需要了解目前大语言模型的主要使用方式:　

零样本提示(zero-shot prompting)。　

在这种方式下,我们给模型一个提示,让它直接生成输出,就像让一个人不经过思考和修改,一次性写出一篇完整的文章。　

相比之下,代理工作流更像人类的思考和写作过程:　

首先写一个大纲

决定是否需要进行网络研究

如果需要,下载相关网页并将信息输入大语言模型

写出初稿

阅读并批评初稿

修改草稿

这个过程可能需要多次循环,但最终会产生更高质量的输出。　

Andrew提到,他的团队已经将这种工作流应用于处理复杂的法律文件、辅助医疗诊断,以及处理复杂的政府文书等任务,取得了比传统方法更好的结果。　

AI Agent的性能优势

为了说明 AI Agent的优势,Andrew引用了一个基准测试的结果。　

在OpenAI的Human Eval基准测试中,这个测试衡量了大语言模型解决编码难题的能力:　

GPT-3.5: 48%正确率

GPT-4: 67%正确率

GPT-3.5使用代理工作流: 95%正确率

GPT-4使用代理工作流: 更高的正确率

这个结果清楚地展示了代理工作流带来的巨大性能提升。值得注意的是,GPT-3.5使用代理工作流甚至超过了单纯使用GPT-4的表现,这凸显了代理AI方法的潜力。　

AI Agent的四种主要设计模式

Andrew介绍了代理AI的四种主要设计模式:　

反思、工具使用、规划和多代理协作　

让我们逐一探讨这些模式:　

反思(Reflection)

反思模式允许AI对自己的输出进行批评和改进。例如,在编码任务中:　

AI首先生成代码

然后,AI被要求检查和批评这段代码

基于这些批评,AI改进代码

这个过程可以多次重复

这种方法虽然不能解决所有问题,但通常能显著提升基线性能。　

工具使用(Tool Use)

工具使用模式允许大语言模型生成API调用请求,决定何时需要搜索网络、执行代码,或执行其他任务,如发送客户退款、发送电子邮件或查看日历条目。这大大扩展了AI能够执行的任务范围。　

规划(Planning)

在面对复杂任务时,规划模式允许AI将任务分解为一系列步骤。例如,对于"生成一个女孩在阅读书籍的图像"这样的复杂请求,AI可能会决定:　

首先使用开放姿势模型检测姿势

然后生成女孩的图片

接着描述图像

最后使用文本到语音技术生成音频

多代理协作(Multi-Agent Collaboration)

在多代理协作模式中,AI被提示在不同时间扮演不同的角色。这些不同的"代理"相互交互,共同解决任务。虽然这看起来可能有些多余(毕竟都是同一个AI),但许多团队发现这种方法能显著提高各种任务的性能。　

Andrew将这种方法比作计算机中的多进程概念。虽然最终都在同一个处理器上运行,但多进程抽象帮助开发者更好地组织和管理复杂任务。同样,多代理协作帮助开发者将大任务分解为子任务,从而构建更复杂的系统。　

视觉AI的新机遇

多模态AI的崛起

Andrew特别强调了基于大型多模态模型的代理AI的兴起。　

这种AI不仅能处理文本,还能处理图像和视频等多种形式的数据。这为处理视觉数据开辟了新的可能性。　

视觉AI的代理工作流

就像在文本处理中一样,视觉AI也可以受益于代理工作流。例如,在处理复杂的图像任务时,AI可以采用迭代的方法:　

检测人脸

检测数字

将信息整合在一起

生成和测试代码

制定更复杂的计划

这种方法使AI能够处理比简单的"看一眼就回答"方法更复杂的视觉任务。　

视觉AI的实际应用

Andrew展示了他的团队开发的一些视觉AI应用示例:　

计数图像中的球员

在一张足球比赛的图片中,AI能够准确地计数场上的球员数量。这个过程不仅包括识别球员,还包括区分场上和场下的球员。　

在视频中找到进球时刻

AI能够分析一段足球比赛视频,找到进球的确切时刻,并显示相关的帧。　

视频元数据生成

AI可以将视频分割成小块,描述每个片段,并生成包含片段名称、开始时间和结束时间的元数据。这些数据可以存储在数据库中,用于构建其他应用。　

视频搜索应用

基于上述能力,Andrew的团队构建了一个演示应用,可以根据描述搜索视频片段。例如,搜索"滑雪者在空中"或"夜晚的灰狼",应用能够找到相关的视频片段并显示时间线。　

这些例子展示了视觉AI的强大潜力,以及它如何能够帮助我们从大量的图像和视频数据中提取价值。　

视觉AI的意义

Andrew指出,许多公司和团队拥有大量的视觉数据(图像和视频),但直到现在,从这些数据中获取价值一直很困难。视觉AI的发展正在改变这一状况,使得之前被存储在某处的大量视觉数据现在可以创造实际价值。　

这种转变对许多行业都有重大影响。　

例如:　

零售业可以更好地分析店内客户行为

制造业可以更有效地进行质量控制

安防行业可以更智能地监控和分析视频流

医疗行业可以更准确地解读医学影像

视觉AI的发展不仅扩展了AI的应用范围,还有可能彻底改变我们处理和利用视觉信息的方式。　

AI发展的主要趋势

代理工作流的token生成加速

代理工作流需要读取大量文本或图像,并生成大量文本(即生成大量token)。因此,加速token生成的努力正在进行中,包括半导体公司如Sova Service等的工作,以及大量的软件和其他类型的硬件工作。这将使代理工作流运行得更快、更高效。　

这一趋势的意义在于:　

提高AI系统的响应速度,使其更接近实时交互

降低运行复杂AI任务的成本

使更复杂的AI应用成为可能。

大语言模型的专有化

当前的大语言模型主要是为了回答人类问题和执行人类生成的指令而优化的。然而,代理工作流需要其他类型的操作,如工具使用。因此,我们看到了专门为支持工具使用而调整的大语言模型的出现。例如,Anthropic最近发布了一个支持计算机使用的模型。　

这种专有化的意义在于:　

- 提高AI在特定任务上的性能　

- 使AI能够更好地融入复杂的工作流程　

- 为开发者提供更多样化的AI工具　

非结构化数据工程的重要性上升

随着生成式AI在处理文本、图像、视频和音频等非结构化数据方面的能力提升,数据工程的重要性正在上升。特别是在管理非结构化数据及其元数据,以及部署这些数据以创造价值方面。　

这一趋势的影响包括:　

- 对数据工程师和数据科学家的需求增加　

- 数据管理和处理工具的发展　

- 企业需要重新评估其数据策略,特别是关于非结构化数据的处理　

视觉处理革命的到来

虽然文本处理的革命已经到来,但图像处理的革命还处于早期阶段。　

然而,Andrew预测,随着视觉AI的发展,许多企业将能够从视觉数据中获得比以往更多的价值。　

这一革命可能带来的变化包括:　

- 视觉分析在各行各业的广泛应用　

- 新的基于视觉的产品和服务的出现　

- 对视觉数据收集和处理的伦理和隐私问题的更多关注　

AI应用开发的新机遇

实验速度的提升

Andrew强调,现在是成为一个"构建者"的绝佳时机。　

生成式AI使我们能够比以往任何时候都更快地进行实验。这种快速实验的能力为创新打开了新的大门。　

对于开发者和企业来说,这意味着：　

- 可以更快地验证新想法　

- 减少了试错的成本　

- 加快了产品迭代的速度　

AI能力的扩展

代理AI正在扩大我们可以构建的应用程序的范围。许多以前不可能实现的应用现在变得可行。　

这为创新者提供了广阔的机会空间。　

潜在的新应用领域包括：　

- 更智能的个人助理　

- 高度个性化的教育系统　

- 复杂的自动化决策系统　

- 更高级的创意工具　

视觉AI的机遇

Andrew特别强调了视觉AI领域的机会。随着处理图像和视频数据能力的提升,许多新的应用成为可能。　

视觉AI的潜在应用包括：　

- 高级图像和视频搜索系统　

- 自动视频摘要和分析工具　

- 增强现实(AR)应用的改进　

- 更精确的医学影像分析　

降低开发门槛

随着AI工具和框架的发展,开发AI应用的门槛正在降低。这意味着更多的开发者可以参与到AI应用的创新中来。　

这种趋势的影响包括：　

- AI创业公司数量的增加　

- 传统软件公司更容易集成AI功能　

- 个人开发者有更多机会创造有影响力的AI应用　

AI发展面临的挑战

尽管AI发展前景光明,但我们也不能忽视它面临的挑战。　

伦理和责任问题

随着AI能力的增强,其潜在的影响也在扩大。这引发了一系列伦理问题：　

- 隐私保护：AI系统处理大量个人数据,如何保护用户隐私？　

- 公平性和偏见：如何确保AI系统不会放大或perpetuate社会中的偏见？　

- 透明度和可解释性：如何让AI的决策过程更透明,特别是在关键领域如医疗诊断中？　

- 责任归属：当AI系统造成损害时,谁应该负责？　

安全性问题

AI系统的安全性是另一个重要的挑战：　

- 对抗性攻击：如何防止恶意行为者通过精心设计的输入来欺骗AI系统？　

- 系统稳定性：如何确保复杂的AI系统在各种情况下都能稳定运行？　

- 数据安全：如何保护用于训练和运行AI系统的敏感数据？　

技术挑战

尽管AI取得了巨大进展,但仍然存在许多技术挑战：　

- 可扩展性：如何使AI系统能够处理更大规模的数据和更复杂的任务？　

- 效率：如何降低AI系统的能源消耗和计算成本？　

- 泛化能力：如何提高AI系统在新环境和新任务中的表现？　

- 持续学习：如何使AI系统能够像人类一样持续学习和适应？　

社会经济影响

AI的广泛应用可能带来深远的社会经济影响：　

- 就业变化：AI可能导致某些工作岗位消失,同时创造新的工作机会。如何管理这种转变？　

- 技能差距：如何确保劳动力市场能够适应AI时代的需求？　

- 经济不平等：AI可能加剧经济不平等,如何确保AI带来的利益能够公平分配？　

- 教育体系的调整：如何调整教育体系以培养AI时代所需的技能？　

负责任的AI发展

面对AI带来的机遇和挑战,Andrew强调了负责任地推动AI发展的重要性。　

"快速行动,负责任地行动"

Andrew提出的"快速行动,负责任地行动"理念,强调了在追求创新的同时,也要考虑到AI的潜在影响。：　

- 在开发过程中持续评估AI系统的影响　

- 建立健全的测试和评估机制　

- 与各利益相关方保持沟通,包括用户、监管机构和公众　

跨学科合作

AI的发展不仅仅是一个技术问题,还涉及伦理、法律、社会学等多个领域。　

因此,推动负责任的AI发展需要跨学科合作：　

- 鼓励技术专家与伦理学家、法律专家、社会学家等合作　

- 在AI教育中融入伦理和社会影响的内容　

- 建立跨学科的AI研究中心和项目　

透明度和开放性

保持AI发展的透明度和开放性对于建立公众信任至关重要：　

- 鼓励AI研究成果的公开分享　

- 提高AI系统决策过程的可解释性　

- 建立AI系统的审计机制　

政策和监管　

适当的政策和监管框架可以帮助引导AI的负责任发展：　

- 制定AI伦理准则和最佳实践　

- 建立AI系统的安全和性能标准　

- 制定保护个人数据和隐私的法规　

- 鼓励负责任的AI创新的激励机制　

Andrew对AI从业者的建议

保持学习和适应

AI领域发展迅速,从业者需要：　

- 持续学习新技术和方法　

- 关注领域内的最新研究和趋势　

- 培养跨学科思维,了解AI的社会影响　

关注实际应用

Andrew强调了AI应用层的重要性。因此,从业者应该：　

- 思考AI如何解决实际问题　

- 关注用户需求和体验　

- 考虑AI解决方案的可扩展性和可维护性　

重视伦理和责任

负责任的AI开发很重要：　

- 在开发过程中考虑伦理问题　

- 评估AI系统的潜在影响　

- 积极参与有关AI伦理的讨论　

拥抱快速实验

利用生成式AI和新工具加速开发：　

- 采用快速原型和迭代的方法　

- 使用代理AI工作流提高效率　

- 但要记住"负责任地行动"　

探索新领域

随着AI能力的扩展,要勇于探索新的应用领域：　

- 关注视觉AI等新兴领域　

- 思考AI如何与其他技术结合　

- 寻找AI可以创造价值的新场景　

AI正处于一个激动人心的发展阶段。　

AI Agent工作流、视觉AI的进步、大语言模型的专门化等趋势正在开创新的可能性。　

同时,也面临着伦理、安全和社会影响等重要挑战。　

阅读原文

跳转微信打开

AI技术栈的演进

AI技术栈的层次结构

价值分布的变化

技术栈中新兴的AI Agent协调层

AI开发模式的革新

快速迭代:AI开发的新范式

"快速行动,负责任地行动"

AI Agent工作流的兴起

AI Agent:AI发展的新前沿

从零样本提示到代理工作流

AI Agent的性能优势

AI Agent的四种主要设计模式

视觉AI的新机遇

多模态AI的崛起

视觉AI的代理工作流

视觉AI的实际应用

视觉AI的意义

AI发展的主要趋势

代理工作流的token生成加速

大语言模型的专有化

非结构化数据工程的重要性上升

视觉处理革命的到来

AI应用开发的新机遇

实验速度的提升

AI能力的扩展

视觉AI的机遇

降低开发门槛

AI发展面临的挑战

伦理和责任问题

安全性问题

技术挑战

社会经济影响

负责任的AI发展

"快速行动,负责任地行动"

跨学科合作

透明度和开放性

Andrew对AI从业者的建议

保持学习和适应

关注实际应用

重视伦理和责任

拥抱快速实验

探索新领域

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签