2005 年以来第一次!美联储「罕见分歧」,敏锐的交易员「接下来有没有大幅降息不好说了」
十九年来首张「理事反对票」和不够鸽派的点阵图,让成功预测本次降息幅度的交易员也感到茫然。而接下来的就业和通胀数据报告以及美联储褐皮书,将是决定降息节奏的重磅因素。
🎯人工智能DAO:DAO依赖社区投票,效率低易疲劳。可提供人工智能代理根据成员价值观投票,实现提案自动化,模型用贝叶斯方法考虑决策不确定性,超阈值则提请人工投票,需简化参与流程并结合用户链上链下数据定义偏好。
🔍可验证的模型训练:训练模型存在诸多问题,使版权、补偿、多方训练等复杂化。潜在解决方案是使训练过程可验证,如集成加密元信息到训练中,或在专门构建的去中心化网络上训练,也有基于传统共识机制的方案,但存在冗余工作。
🧐实现可验证推理的其他途径:可验证机器学习研究集中在零知识机器学习,但其性能开销大且不能运行大型模型。目前有几种探索方法,如Ora使用opML,Aizel构建基于MPC和TEE的解决方案,EZKL对zk证明进行拆分和并行化。
🤖DePin 2.0:去中心化个人互联网与机器人技术交叉带来挑战,机器人群的独立行动能力带来脆弱性。可利用零知识证明认证群体策略执行,不泄露策略细节,建立可实时验证行为的无信任环境。
📈透明的LLM Drift:大型语言模型存在不可预知性和性能下降问题。解决方案是将自动基准与社区投票结合,用代币激励参与,结果存区块链确保透明度和不变性。
AI x Crypto 万字报告(三):Builder 的机遇
人工智能 DAO、DePin 2.0、可验证的模型训练等。
撰文:Mohamed Baioumy、Alex Cheema
编译:BeWater
全文篇幅较长,分拆成三部分发布。本文为第三部分,第一部分请点击阅读,第二部分请点击阅读。
在撰写本报告的过程中,我们从社区收到了许多关于「AI x Crypto」领域潜在建设者们的建议。我们整理了一份建议清单,列出了我们感兴趣的想法,希望能帮助您展开工作。我们列出了每个问题和潜在的解决方案。如果您对这些想法感兴趣, 请联系我们 support@bewater.xyz。
问题: DAO 依赖活跃的社区对提案进行深思熟虑的投票。每项提案都需要手动投票,这会拖慢工作进度,导致 DAO 疲劳。
潜在解决方案: 为 DAO 的成员提供一个人工智能代理,根据他们的价值观代表他们投票,从而实现提案自动化。该模型可以使用贝叶斯方法,将决策中的不确定性考虑在内。如果不确定性超过阈值,则提请 DAO 成员注意该提案,并要求进行人工投票。
创建这些人工智能代理的参与的流程需要简化,以便用户采用。结合每个用户的链上和链下数据,就可以定义用户的偏好,而无需过多的人工操作。例如,DAO Base 正在围绕「你过去的所作所为决定了你」这一理念研究解决方案。
一种可能的方法是在链上查询 LLM,将提议和 DAO 成员的提示词一起传入,以便他们根据自己的要求进行调整。
清单 1:这是一个简单的示例,但需要一个工具来方便用户指定他们的要求,并使投票自动化
问题: :由于训练模型是对训练数据的压缩,因此即使能获得模型权重,也不一定能知道模型是在什么数据上训练的。这就带来了一些传统软件所不存在的挑战:
潜在的解决方案: 使训练过程本身可验证。开发工具来分解模型是如何训练的,并检查它是否包含给定的数据。可以探索几种方法:
将加密元信息集成到训练过程本身。例如,Pytorch NFT Callback会每隔 N 个 epoch 对当前网络权重、一些元数据(数据、准确性等)和你的以太坊地址进行哈希运算,从而证明是谁进行了模型训练。注意:这种方法会给模型训练带来性能开销。
另一种解决方案是在专门构建的去中心化网络上训练模型。也有基于传统共识机制(如 BFT)的解决方案。
然而,BFT 需要的不仅仅是 2/3 节点的可靠性诚实性.达成 BFT 共识的最少节点数是? = 3? + 1,其中 ? 给出了 (i) 失败或 (ii) 作恶的节点数。这就引入了大量冗余工作(与?成线性关系,例如? = 60 时为 60x)。这种方法的一个例子就是「训练证明」 (opens new window)。我们建议采用另一种从头开始构建的、专为模型训练的去中心化网络。
问题: 可验证的机器学习研究大多集中在零知识机器学习(zkml)上。然而,zkml 目前的性能开销高达 1000 倍,而且还不能运行大型模型。
潜在解决方案: 目前正在探索几种方法。这是一个相对较新的领域,不同的方法有机会做出不同的权衡。
Ora (opens new window) 正在尝试使用 opML (opens new window)。这种方法是由单方「乐观地 」推断模型,将结果放到链上,并通过向验证者支付代币来激励他们质疑不正确的结果。
Aizel (opens new window) 正在构建一个基于多方计算(MPC)和可信执行环境(TEE)的解决方案。他们的目标是以与普通推理相同的成本进行可验证推理。
EZKL (opens new window) 正在对 zk 证明进行拆分和并行化,这将使大型模型的证明变得可行。
问题: 随着去中心化个人互联网(DePin,Decentralized Personal Internet)技术和机器人技术的交叉,整合机器人群等动态自主系统的独特挑战显而易见。与太阳能电池板等静态传感设备不同,机器人群具有独立行动的能力,这就带来了脆弱性。具体来说,机器人群中的一个故障或作恶(拜占庭式)机器人就会破坏整个系统的完整性。鉴于机器人行动的不可逆转性,确保这些机器人群的可靠性和安全性至关重要。
潜在解决方案: 一种潜在的解决方案是利用零知识证明(ZKPs)来认证特定群体策略的执行,而不泄露策略的细节。这种加密技术可以根据从群体收集到的硬件认证数据和外部传感器的加密签名信息,验证群体是否按照预先定义的算法运行。通过加入 ZKPs,我们可以建立一个可实时验证机器人群行为的无信任环境,从而降低拜占庭机器人带来的风险。这种方法不仅增强了机器人群的安全性和可靠性,还符合 DePin 的去中心化理念,在确保透明度和信任度的同时,不会泄露敏感的操作细节。
问题: 大型语言模型(LLM)是许多应用的核心,但它们却存在不可预知性和性能随时间变化而下降的问题。传统的基准(如 HuggingFace 的 Open LLM Leaderboard (opens new window))因其游戏性和缺乏历史数据而备受诟病,因此很难跟踪和了解 LLM 的性能变化。
潜在解决方案: 将自动基准与社区投票相结合,使用代币作为参与的激励措施。结果存储在区块链上,确保透明度和不变性。这种方法旨在提供可靠、透明的 LLM 性能历史,解决不可预测性和性能下降的问题。
问题: 随着人工智能生成的内容越来越普遍,区分网上信息的真假变得越来越复杂。这种模糊性对传统的验证方法提出了挑战,使数字内容难以保持可信度。
潜在解决方案: 一个值得考虑的想法是扩展证明市场的概念,以解决在更细微、更模糊的环境中验证真理的问题。通过引入经济激励机制(如现有证明市场中的激励机制),该系统可以鼓励发现和验证真理。Bittensor 的 「尤马共识 」将是 「真相市场」的理想场所,因为它能很好地处理模糊性问题。这种方法不会规定特定的方法,但会创建一个框架,在这个框架中,各种识别真理的策略都会得到经济上的激励,从而形成一个真理具有实际价值的生态系统。
问题: 预测市场面临的挑战是,参与者往往对所投注事件的含义存在分歧,包括什么算作输赢的证据,从而导致混乱和争议。
潜在解决方案: 在事先商定的日期将信息输入事先商定的人工智能模型,从而解决预测市场问题。信息来自预先商定的数据源(可利用之前的「真相市场」想法)。
在深入探讨人工智能(AI)与加密货币的交集之前,首先要单独介绍人工智能领域的一些概念。由于本报告是为加密货币领域的读者撰写的,读者并非都对人工智能和机器学习概念有深刻理解。而理解相关概念至关重要,这样读者才能评估人工智能和加密货币交叉领域的哪些想法具有实质意义,并准确评估项目的技术风险。本节重点介绍人工智能的概念;此外,本节也重点介绍了人工智能与加密货币之间的关系。
通过本章的提示,我们可以了解人工智能概念与加密领域的关系。
本节所涉主题概述:
1956 年,一些当时最聪明的人聚集在一起参加了一个研讨会。他们的目标是提出智力的一般原则。他们指出:
「学习的每一个方面或智能的任何其他特征都可以被如此精确地描述出来,以至于可以制造一台机器来模拟它。」
在人工智能发展的早期,研究人员充满了乐观主义。从某种意义上说,他们的目标是人工通用智能(AGI),雄心勃勃。我们现在知道,这些研究人员并没有设法创造出具有通用智能的人工智能代理。70 年代和 80 年代的人工智能研究人员也是如此。在那个时期,人工智能研究人员试图开发「基于知识的系统」。
基于知识的系统的关键理念是,我们可以为机器编写非常精确的规则。从本质上讲,我们从专家那里提取非常具体和精确的领域知识,并以规则的形式写下来供机器使用。然后,机器就可以利用这些规则进行推理并做出正确的决定。例如,我们可以尝试从马格努斯·卡尔森(Magnus Carlson)那里提炼出下棋的所有原则,然后构建一个人工智能来下棋。
然而,要做到这一点非常困难,即使有可能,也需要大量的人工来创建这些规则。试想一下,如何将识别狗的规则写入机器?机器如何才能从拥有像素到知道狗是什么?
人工智能的最新进展来自于一个被称为「机器学习」的分支。在这种模式下,我们不是为机器编写精确的规则,而是使用数据,让机器从中学习。使用机器学习的现代人工智能工具随处可见,例如 GPT-4、iPhone 上的 FaceID、游戏机器人、Gmail 垃圾邮件过滤器、医疗诊断模型、自动驾驶汽车......等等。
机器学习管道可分为三个主要步骤。有了数据,我们要训练模型,然后有了模型,我们就可以使用它。使用模型称为推理。因此,这三个步骤分别是数据、训练和推理。
高度概括来说,数据步骤包括查找相关数据并对其进行预处理。例如,如果我们要建立一个对狗进行分类的模型,我们需要找到狗和其他动物的图片,这样模型才能知道什么是狗,什么不是狗。然后,我们需要对数据进行处理,并确保数据格式正确,以便模型能够正确学习。例如,我们可能要求图片大小一致。
第二步是训练,我们利用数据来学习模型应该是什么样的。模型内部的方程是什么?神经网络的权重是多少?参数是什么?正在进行的计算是什么?如果模型不错,我们就可以测试它的性能,然后就可以使用它了。这就到了第三步。
第三步称为推理,即我们只是使用神经网络。例如,给神经网络一个输入,然后问一个问题:可以通过推理产生输出吗?
图 28:机器学习管道的三个主要步骤是数据、训练和推理
现在,让我们深入了解一下每个步骤。第一:数据。广义上讲,这意味着我们必须收集数据并对其进行预处理。
让我们来看一个例子。如果我们想建立一个供皮肤科医生(专门治疗皮肤病的医生)使用的模型。我们首先要收集许多人脸的数据。然后,我们请专业皮肤科医生来评估是否存在皮肤病。现在可能会出现许多挑战。首先,如果我们拥有的所有数据都包括人脸,那么模型将很难识别身体其他部位的任何皮肤状况。其次,数据可能存在偏差。例如,大部分数据可能是一种肤色或色调的图片。第三,皮肤科医生可能会犯错,这意味着我们会得到错误的数据。第四,我们获得的数据可能会侵犯隐私。
经济激励措施有助于收集高质量的数据,而隐私保护技术可以解决用户在上述例子等敏感环境中的顾虑。
我们将在第 2 章中介绍更深层次的数据挑战。不过,这可以让你了解到,收集好的数据并对其进行预处理是相当具有挑战性的。
图 29:两个流行数据集的示意图。MNIST 包含手写数字,而 ImageNet 包含数百万张不同类别的注释图像
在机器学习研究中,有许多著名的数据集。常用的有:
MNIST 数据集
ImageNet
IMDb 评论
获取大型、高质量的数据集对于训练良好的模型极为重要。然而,这可能具有挑战性,尤其是对于较小的组织或个人搜索者而言。由于数据非常宝贵,大型机构通常不会共享数据,因为数据提供了竞争优势。
在透明度和开放性与盈利能力之间取得平衡的解决方案可以提高开放数据集的质量。
管道的第二步是训练模型。那么,训练模型究竟意味着什么呢?首先,我们来看一个例子。一个机器学习模型(训练完成后)通常只有两个文件。例如,LLaMa 2(一个大型语言模型,类似于 GPT-4)就是两个文件:
第一个文件包含 LLaMa 2 模型的所有参数,run.c 包含如何进行推理(使用模型)的说明。这些模型都是神经网络。
图 30:神经网络的基本图示
在像上面这样的神经网络中,每个节点都有一堆数字。这些数字被称为参数,并存储在文件(惊喜!)参数中。获取这些参数的过程称为训练。下面是一个高度概括的过程。
想象一下训练一个识别数字(从 0 到 9)的模型。我们首先收集数据(在这种情况下,我们可以使用 MNIST 数据集)。然后开始训练模型。
这一过程本质上是顺序性的。我们首先通过整个网络传递一个数据点,看看预测结果如何,然后更新模型的权重。
训练过程可以更加全面。首先,我们必须选择模型架构。我们应该选择哪种类型的神经网络?并不是所有的机器学习模型都是神经网络。其次,在确定哪种架构最适合我们的问题,或者至少是我们认为最适合的架构之后,我们需要确定训练流程。例如,我们将以何种顺序将数据传递给网络?
第三,我们需要硬件设置。我们要使用什么样的硬件(CPU、GPU、TPU)?我们又该如何对其进行训练?
最后,在训练模型的同时,我们要验证这个模型是否真的很好。我们希望在训练结束时测试这个模型是否能提供我们想要的输出结果。剧透(其实也不算剧透),训练模型的计算成本非常高。任何微小的低效都会带来巨大的成本。正如我们稍后将看到的,特别是对于像 LLM 这样的大型模型,低效的训练可能会让你付出数百万美元的代价。
在第 2 部分中,我们将再次详细讨论训练模型所面临的挑战。
机器学习管道的第三步是推理,也就是使用模型。当我使用 ChatGPT 并得到回应时,模型正在执行推理。如果我用脸部解锁 iPhone,脸部 ID 模型会识别我的脸并打开手机。该模型执行了推理。数据已经有了,模型已经训练好了,现在模型训练好了,我们就可以使用它,使用它就是推理。
严格来说,推理与网络在训练阶段做出的预测是一回事。回想一下,一个数据点通过网络,然后进行预测。然后根据预测的质量更新模型参数。推理的工作原理与此相同。因此,与训练相比,推理的计算成本非常低。训练 LLaMa 可能要花费数千万美元,但推理一次只需几分之一。与训练相比,计算成本更低。训练 LLaMa 可能要花费数千万美元,但进行一次推理只需几分之一。
与训练相比,进行推理的成本很低,而且更容易并行化,这可能为小型闲置计算(如笔记本电脑和手机)提供了机会。
推理过程有几个步骤。首先,在实际生产中使用之前,我们需要对其进行测试。我们对训练阶段未见的数据进行推理,以验证模型的质量。其次,当我们部署一个模型时,会有一些硬件和软件要求。例如,如果我的 iPhone 上有人脸识别模型,那么该模型就可以放在苹果公司的服务器上。然而,这样做非常不方便,因为现在每次我想解锁手机时,都必须访问互联网并向苹果服务器发送请求,然后在该模型上进行推理。然而,如果想在任意时刻使用这种技术,进行人脸识别的模型就必须存在于你的手机上,这意味着该模型必须与你 iPhone 上的硬件类型兼容。
最后,在实践中,我们还必须维护这一模式。我们必须不断进行调整。我们训练和使用的模型并不总是完美的。硬件要求和软件要求也在不断变化。
到目前为止,我把这个管道设计成了依次进行的三个步骤。你获取数据,处理数据,清理数据,一切都很顺利,然后你训练模型,模型训练完成后,你进行推理。这就是机器学习在实践中的美好图景。实际上,机器学习需要进行大量的迭代。因此,它不是一个链条,而是如下图所示的几个循环。
图 31:机器学习流水线可以形象地理解为由数据、训练和推理三个步骤组成的链条。不过,在实践中,这一过程的迭代性更强,如蓝色箭头所示。
为了理解这一点,我们可以举几个例子。例如,我们可能会收集一个模型的数据,然后尝试对其进行训练。在训练的过程中,我们会发现我们需要的数据量应该更多。这意味着我们必须暂停训练,回到数据步骤并获取更多数据。我们可能需要重新处理数据,或者进行某种形式的数据扩增。数据扩增就像是给数据改头换面,从老一套中创造出新的面貌。想象一下,你有一本相册,你想让它变得更有趣。你把每张照片都复制了几份,但在每份副本中,你都做了一些小改动 -- 也许你旋转了一张照片,放大了另一张照片,或者改变了另一张照片的光线。现在,你的相册有了更多的变化,但实际上你并没有拍摄任何新照片。例如,如果你正在训练一个模特识别狗,你可能会水平翻转每张照片,然后把它也提供给模特。或者,我们改变照片中狗的姿势,如下图所示。就模型而言,这增加了数据集,但我们并没有到现实世界中去收集更多数据。
使用合成数据来训练机器学习模型可能会导致许多问题,因此能够证明数据的真实性在未来可能变得至关重要。
图 32:数据增强示例。对原始数据点进行多点扩增,无需到世界各地收集更多独特的数据点
迭代的第二个更明显的例子是,当我们实际训练了一个模型,然后将其用于实践,即进行推理时,我们可能会发现模型在实践中表现不佳或存在偏差。这意味着我们必须停止推理过程,返回并重新训练模型,以解决这些问题,如偏差和证明。
第三个也是非常常见的步骤是,一旦我们在实践中使用模型(进行推理),我们最终会对数据步骤进行修改,因为推理本身会产生新的数据。例如,想象一下建立一个垃圾邮件过滤器。首先,我们要收集数据。本例中的数据是一组垃圾邮件和非垃圾邮件。当模型经过训练并用于实践时,我的收件箱中可能会收到一封垃圾邮件,这意味着模型犯了一个错误。它没有把它归类为垃圾邮件,但它就是垃圾邮件。因此,当 Gmail 用户选择「这封邮件属于垃圾邮件」时,就会产生一个新的数据点。之后,所有这些新数据点都会进入数据步骤,然后我们可以通过多做一些训练来提高模型的性能。
另一个例子是,想象一个人工智能在下棋。我们训练人工智能下棋所需的数据是大量棋局,以及谁赢谁输的结果。但当这个模型用于实际下棋时,就会为人工智能生成更多的数据。这意味着,我们可以从推理步骤回到数据,利用这些新的数据点再次改进我的模型。这种推理和数据相连的想法适用于很多场合。
本节旨在让你对机器学习模型的构建过程有一个高层次的了解,这个过程是非常反复的。它不像 「哦,我们只需获取数据,一次尝试就能训练出一个模型,然后将其投入生产」。
模型是不断更新的,因此不变的记录可能会给设计带来挑战。
我们将介绍三种主要的机器学习模型。
「老师,教我方法」
想象一下,你正在教孩子区分猫和狗。你(对一切都了如指掌的老师)给他们看很多猫和狗的图片,每次都告诉他们哪个是哪个。最终,孩子们学会了自己辨别。这几乎就是机器学习中监督学习的工作原理。
在监督学习中,我们有大量的数据(比如猫和狗的图片),而且我们已经知道答案(老师告诉他们哪个是狗,哪个是猫)。我们利用这些数据来训练一个模型。该模型会查看许多示例,并有效地学习模仿老师。
在这个例子中,每张图片都是一个原始数据点。答案(狗或猫)被称为「标签」。因此,这是一个标签数据集。每个数据点都包含一张原始图片和一个标签。
这种方法概念简单,功能强大。在医疗诊断、自动驾驶汽车和股票价格预测中,使用监督学习模型的应用很多。
这种方法概念简单,功能强大。在医疗诊断、自动驾驶汽车和股票价格预测中,使用监督学习模型的应用很多。
然而,可以想象,这种方法面临着许多挑战。例如,我们不仅需要获取大量数据,还需要标签。这可能非常昂贵。Scale.ai (opens new window) 等公司在这方面提供了有价值的服务。数据标注对稳健性提出了许多挑战。给数据贴标签的人可能会犯错,或者只是对标签有不同意见。从人类收集的所有标签中,有 20% 无法使用的情况并不少见。
激励机制和其他博弈论动态可能有助于提高开放数据集的质量。
「只需找到隐藏的模式」
想象一下,你有一个装满各种水果的大篮子,但你并不熟悉所有的水果。你开始根据它们的外观、大小、颜色、质地甚至气味将它们分类。你不太清楚每种水果的名称,但你注意到有些水果彼此相似。也就是说,你在数据中发现了一些规律。
这种情况类似于机器学习中的无监督学习。在无监督学习中,我们会给模型一堆数据(比如各种水果的组合),但我们不会告诉模型每个数据是什么(我们不会给水果贴标签)。然后,模型会检查所有这些数据,并试图自己找出模式或分组。它可能会根据水果的颜色、形状、大小或任何其他它认为相关的特征进行分组。然而,模型找到的特征并不总是相关的。这就导致了许多问题,我们将在第 2 章中看到。
例如,模型最终可能会将香蕉和大蕉归为一组,因为它们都是长条形且呈黄色,而苹果和西红柿可能会被归为另一组,因为它们都是圆形且可能是红色。这里的关键在于,模型是在没有任何先验知识或标签的情况下找出这些分组的 -- 它是从数据本身学习的,就像你根据可观察到的特征将未知水果分到不同的组中一样。
无监督学习是许多流行的机器学习模型的支柱,例如大型语言模型(LLM)。ChatGPT 不需要人类通过提供标签来教它如何说每个句子。它只需分析语言数据中的模式,并学会预测下一个单词。
许多其他强大的生成式人工智能模型都依赖于无监督学习。例如,GAN(生成对抗网络)可用于生成人脸(即使这个人并不存在)。参见 https://thispersondoesnotexist.com/
图 33:人工智能生成的图像来自 https://thispersondoesnotexist.com
图 34:第二张人工智能生成的图片来自 https://thispersondoesnotexis t.com
上面的图片是人工智能生成的。我们并没有教这个模型「什么是人脸」。它是在大量人脸的基础上训练出来的,通过巧妙的架构,我们可以利用这个模型生成看似真实的人脸。请注意,随着生成式人工智能的兴起和模型的改进,对内容进行验证变得越来越困难。
加密解决方案可以让我们追踪内容的来源,并以可扩展的方式让我们安全地使用生成式人工智能。
「试一试,看什么有效」或 「从试验和错误中学习」
想象一下,您正在教一只狗做一个新的动作,比如捡球。每当狗狗做出接近你想要的动作时,比如跑向球或捡起球,你就给它点心吃。如果狗狗做了与此无关的事情,比如朝相反的方向跑,它就得不到食物。渐渐地,狗狗发现捡到球就能得到美味的食物,所以它就会一直这样做。这基本上就是机器学习领域中的强化学习(RL)。
在 RL 中,你有一个计算机程序或代理(如狗),它通过尝试不同的事情(如狗尝试不同的动作)来学习决策。如果代理做出了好的行为(比如捡球),它就会得到奖励(食物);如果做出了不好的行为,它就得不到奖励。随着时间的推移,代理会学会多做能获得奖励的好事,少做不能获得奖励的坏事。从形式上看,这就是最大化奖励函数。
最酷的地方在于:代理会自己通过试错找出这一切。现在,如果我们想构建一个人工智能来下棋,那么人工智能最初可以随意尝试走棋。如果最终赢得了比赛,人工智能就会得到奖励。然后,该模型就会学会走更多的胜棋。
这可以应用于许多问题,尤其是需要连续决策的问题。例如,RL 方法可用于机器人与控制、国际象棋或围棋(如 AlphaGo)以及算法交易。
RL 方法面临许多挑战。其一,代理可能需要很长时间才能「学会」有意义的策略。这对于学习下棋的人工智能来说是可以接受的。但是,当人工智能开始采取随机行动来观察哪些行动有效时,你会把你的个人资金投入到人工智能算法交易中吗?或者说,如果机器人一开始会采取随机行动,你会允许它住在你家吗?
图 35:这是一些强化学习代理在训练过程中的视频:一个[真正的机器人]
以下是每种机器学习的应用实例简述:
本章概述了机器学习领域的问题。我们将有选择性地对该领域的某些问题展开。这样做有两个原因:1)简明扼要,全面概述该领域的挑战并考虑到细微差别会导致报告非常冗长;2)在讨论与加密货币的交叉点时,我们将重点关注相关问题。不过,本节本身只是从人工智能的角度撰写的。也就是说,我们不会在本节讨论密码学方法。
本节所涉主题概述:
数据是任何类型机器学习模型的关键。不过,数据的要求和规模因使用的方法而异。无论是监督学习还是无监督学习,都需要原始数据(无标签数据)。
在无监督学习中,只有原始数据,不需要标注。这就缓解了许多与标注数据集相关的问题。然而,无监督学习所需的原始数据仍然会带来许多挑战。这包括
这是一项重大挑战。不过,众包数据集也会带来一些问题,比如数据质量的保证。经济激励和博弈论设计可以帮助创建开放的高质量数据集。
在机器学习模型中,删除特定用户的数据(遵守 GDPR)是一项非常具有挑战性的工作。与数据库不同,我们不能随便删除一个条目。模型参数会根据提供的所有数据进行调整,因此在模型训练完成后删除特定用户的信息是非常困难的。
图 34: 数据隐私的一个特殊问题源于机器学习模型的性质。在普通数据库中,我可以有关于多人的条目。如果我的公司要求我删除这些信息,你只需从数据库中删除即可。然而,当我的模型经过训练后,它持有几乎整个训练数据的参数。不清楚哪个数字对应训练中的哪个数据库条目
在无监督学习中,我们要强调的一个特殊挑战是模型崩溃。
在本文中,作者进行了一项有趣的实验。GPT-3.5 和 GPT-4 等模型是使用网络上的所有数据训练而成的。然而,这些模型目前正在被广泛使用,因此一年后互联网上的大量内容将由这些模型生成。这意味着,GPT-5 及以后的模型将使用 GPT-4 生成的数据进行训练。在合成数据上训练模型的效果如何?他们发现,在合成数据上训练语言模型会导致生成的模型出现不可逆转的缺陷。论文作者指出:「我们证明,如果我们要保持从网络上搜刮的大规模数据进行训练所带来的好处,就必须认真对待这一问题。事实上,当从互联网抓取的数据中出现由 LLM 生成的内容时,收集到的有关人类与系统之间真正交互行为的数据的价值将越来越大」。
这可能表明,围绕数据出处(追踪数据来源)的解决方案存在重大机遇。
图 35:模型崩溃示意图。随着使用人工智能模型生成的互联网内容越来越多,下一代模型的训练集中很可能包含合成数据,如本文所示
请注意,这种现象并非 LLM 所特有,它可能会影响各种机器学习模型和生成式人工智能系统(如变异自动编码器、高斯混合模型)。
现在,让我们来看看监督学习。在监督学习中,我们需要一个贴有标签的数据集。这意味着原始数据本身(一张狗的图片)和一个标签(「狗」)。标签由模型设计者手动选择,可以通过人工标注和自动化工具相结合的方式获得。这在实践中带来了许多挑战。这包括
想象一下,创建一个数据集来预测区块链上新协议的质量。你很可能会得到一个范围很广的分数,这取决于你所选择的评分系统的次活动性,以及你所调查的人的意见差异。
还有很多问题,比如应对对抗性攻击和标签的可转移性。为了让读者对数据集的规模有一些直观的了解,请看下图。像 ImageNet 这样的数据集包含 1400 万个标签数据点。
图 36:各种机器学习数据集的规模示意图。Common Crawl 的近似值为 10 亿个网页,因此总字数远远超过这个数字。小型数据集(如 Iris)包含 150 幅图像。MNIST 大约有 70,000 张图像。请注意,这是一个对数比例
在强化学习中,数据收集是一项独特的挑战。与监督学习不同的是,监督学习的数据是预先标记好的静态数据,而强化学习则依赖于通过与环境互动而产生的数据,这通常需要复杂的模拟或真实世界的实验。这就带来了一些挑战:
值得强调的一点是,数据收集与推理直接相关。在训练一个强化学习代理下棋时,我们可以利用自我对弈来收集数据。自我对弈就像是与自己下棋,以获得进步。代理与自己的副本对弈,形成一个持续学习的循环。这种方法非常适合收集数据,因为它会不断产生新的场景和挑战,帮助代理从广泛的经验中学习。这一过程可以在多台机器上并行执行。由于推理的计算成本很低(与训练相比),这一过程对硬件的要求也很低。通过自我游戏收集数据后,所有数据都将被用于训练模型和改进模型。
闲置计算在分布式推理和数据收集中可以发挥强大作用,因为对硬件的要求比训练低得多。
图 37:通过在熊猫图像中添加特殊类型的噪声,模型可预先判断出图像是长臂猿而不是熊猫。在进行对抗攻击时,我们向神经网络提供一幅输入图像(左图)。然后,我们使用梯度下降法构建噪声向量(中)。该噪声向量被添加到输入图像中,从而导致错误分类(右图)。( 图片来源:本文图 1 解释和利用对抗性实例》论文中的图 1)
在创建开放数据集时,有必要建立一个强大的质量控制层,以避免恶意攻击。此外,数据出处(追溯图像来源)可能会有所帮助。
训练机器学习模型会面临许多挑战。本节绝不是为了说明这些挑战的严重性。相反,我们试图让读者了解挑战的类型和瓶颈所在。这将有助于建立直觉,从而能够评估将训练模型与密码原语相结合的项目构想。
请看下面这个无监督学习问题的例子。在无监督学习中,没有「老师」提供标签或指导模型。相反,模型会发现问题中隐藏的模式。考虑一个猫狗数据集。每只猫狗都有两种颜色:黑色和白色。我们可以使用一个无监督学习模型,通过将它们聚类为两组来找到数据中的模式。该模型有两种有效的方法:
请注意,从技术上讲,这两者都没有错。模型找到的模式很好。然而,要完全按照我们的要求来引导模型是非常具有挑战性的。
图 38:训练好的对猫和狗进行分类的模型最终可能会根据颜色将动物聚类在一起。这是因为在实践中很难指导无监督学习模型。所有图像均由人工智能使用 Dalle-E 生成
这个例子说明了无监督学习所面临的挑战。然而,在所有类型的学习中,能够评估模型在训练过程中的学习效果并进行潜在干预至关重要。这可以节省大量资金。
在无权限系统中,模型的训练无需专家监督,因此可能会浪费大量资源。处理早期停止等问题的自动化工具还很不成熟。
训练大型模型的挑战还有很多,这是一个非常简短的清单:
训练大规模机器学习模型,尤其是深度学习模型,需要大量的计算能力。这通常意味着要使用高端 GPU 或 TPU,而它们可能既昂贵又耗能。
强化学习因其训练的不稳定性而闻名,模型或训练过程中的微小变化都可能导致结果的显著差异。
机器学习中的损失函数定义了模型的优化目标。选择错误的损失函数会导致模型学习到不恰当或次优的行为。
在强化学习中,设计能持续、准确反映预期目标的奖励函数是一项挑战,尤其是在奖励稀少或延迟的环境中。
奖励函数(和损失函数)包含了模型去符号化者认为重要的主观因素。可能有必要建立管理制度,以确保为广泛使用的模型选择适当的函数。
在监督学习中,由于深度神经网络的「黑箱」性质,要了解是哪些特征驱动了复杂模型(如深度神经网络)的预测具有挑战性。
同样,训练模式和所涉及的挑战也是非常复杂的话题。我们希望上述内容能让您对所涉及的挑战有一个大致的了解。如果您想深入了解该领域当前面临的挑战,我们推荐您阅读《应用深度学习中的开放性问题》(Open Problems in Applied Deep Learning)和《MLOps 指南》(MLOps guide)。
从概念上讲,机器学习模型的训练是按顺序进行的。但在很多情况下,并行训练模型至关重要。这可能只是因为模型太大,一个 GPU 难以容纳,并行训练可以加快训练速度。然而,并行训练模型会带来重大挑战,包括
分散和并行训练方面的基本新方法可以极大地推动机器学习的进步。
许多类型的机器学习系统面临的最重要挑战之一就是它们可能「自信地出错」。ChatGPT 可能会返回一个我们听起来很有把握的答案,但事实上这个答案是错误的。这是因为大多数模型经过训练后都会返回最有可能的答案。贝叶斯方法可用于量化不确定性。也就是说,模型可以返回一个有根据的答案,来衡量它有多确定。
考虑使用蔬菜数据训练图像分类模型。该模型可以获取任何蔬菜的图像,并返回它是什么,例如 「黄瓜」或 「红洋葱」。如果我们给这个模型输入一张猫的图像,会发生什么呢?普通模型会返回它的最佳猜测,也许是「白色洋葱」。这显然是不正确的。但这是模型的最佳猜测。贝叶斯模型的输出则是「白色洋葱」和一个确定度,例如 3%。如果模型有 3% 的确定性,我们可能就不应该根据这个预测采取行动。
图 39:常规模型预测(只返回最有可能的答案)和贝叶斯模型预测(返回预测结果的 s 分布)的示意图
这种形式的不确定性定性和推理在关键应用中至关重要。例如,医疗干预或金融决策。然而,贝叶斯模型的实际训练成本非常高,而且面临许多可扩展性问题。
推理过程中出现的更多挑战
在封闭源模型中增加哪些防护措施,这对于确保不出现偏差至关重要。
大型语言模型面临许多挑战。不过,由于这些问题受到了相当多的关注,我们在此仅作简要介绍。
不过,我们想重点介绍论文《沉睡代理:训练通过安全训练持续存在的欺骗性 LLMs》一文中的一个例子。作者训练的模型会在提示年份为 2023 年时编写安全代码,但在提示年份为 2024 年时插入可被利用的代码。他们发现,这种后门行为可以持续存在,因此标准的安全训练技术无法将其清除。这种后门行为在最大的模型中最持久,在经过经训练产生思维链路以欺骗训练过程的的模型中也最持久,甚至就算思维链路已经消失也一直存在。
图 40 后门示意图。如果是 2024 年,模型的训练表现为 「正常」,但如果是 2024 年,则策略表现不同。资料来源:本文图 1
模型训练过程的透明度至关重要,因为即使是开源模型,也可能被训练出只在特定情况下使用的后门。例如,想象一下,将一个有资金的钱包连接到一个人工智能代理,结果却发现了一个后门。然后,这个代理就会将所有资金转移到一个特定的地址,或者以不同的身份恶意行事。
在本章中,我们讨论了机器学习领域的许多挑战。显而易见,研究的巨大进步解决了许多此类问题。例如,基础模型为训练特定模型提供了巨大优势,因为您只需根据使用情况对其进行微调即可。此外,数据标注不再是全手工过程,使用半监督学习等方法可以避免大量的人工标注。
本章的总体目标是先让读者对人工智能领域的问题有一些直观的了解,然后再探讨人工智能与密码学的交叉问题。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
2005 年以来第一次!美联储「罕见分歧」,敏锐的交易员「接下来有没有大幅降息不好说了」
十九年来首张「理事反对票」和不够鸽派的点阵图,让成功预测本次降息幅度的交易员也感到茫然。而接下来的就业和通胀数据报告以及美联储褐皮书,将是决定降息节奏的重磅因素。
一文读懂鲍威尔重磅鹰派记者会的问答要点(中英文对照)
鲍威尔多次强调,美联储将逐次会议做出决策,不会受到市场对降息预期定价的影响,也不会考虑任何政治因素和议题,而是用「对当时(数据)合适的速度或快或慢地采取(降息)行动」。
25 基点「巨亏」,50 基点「恐慌」!面对市场逼宫,美联储今晚如何降?
市场如今大幅押注 50 基点,若美联储降息 25 基点,将被视为「鹰派」,市场将遭受巨额损失;而如果降息 50 基点,但后续行动落后市场预期,可能引发恐慌,金融条件再度收紧。
如果降息 50 基点,对市场有何风险?
高盛交易员 Vladimirov 认为,目前的市场定价较为激进,存在预期落空的风险,可能会对市场情绪和资产价格产生负面影响,后续降息步伐也可能慢于市场预期。市场将重点关注此次公布的「点阵图」,寻求美联储关于未来降息步伐和范围的更明确指引。
新债王:支持降息 50 基点,美联储已经「落后于曲线」
新债王表示,美国经济已经陷入衰退,美联储已经维持了过长时间的紧缩政策,「远远落后于曲线」,应该赶紧行动起来,并押注降息 50 个基点。
美联储决议前夕,市场「创纪录」押注「50 基点降息」
对本周美联储利率决议进行押注的 10 月联邦基金期货的交易量已升至纪录最高水平,其中大多数合约押注降息 50 基点,有三分之一的头寸在本周新建。
「新美联储通讯社」终极前瞻 9 月会议:情况复杂,首次降息幅度仍存疑
Timiraos 认为,美联储是将基准利率下调更大幅度的 50 个基点还是传统的 25 个基点,将取决于鲍威尔如何在一系列微妙的考量中带领他的同事们做出选择。
何一新文:如果我们意见不一样,那可能你是对的
泡沫会破,而那些真正解决用户需求的产品会改变世界,会创造历史。
重拾比特币 P2P 愿景,迎接 Web5 未来
回归比特币的最初愿景,一个赋能个人并实现真正去中心化的 P2P 系统。
哈里斯、特朗普首次直面辩论,市场最关心什么?
预计辩论将聚焦在国内经济政策上,哈里斯和特朗普可能会在通胀、关税、税收等方面产生冲突。
英伟达重挫 9.5%,市值抹去 2789 亿美元创美股之最,发生了什么?
有分析称英伟达正在「消化成长的烦恼」,未来前景仍光明,也有人称英伟达财报令市场怀疑 AI 硬件巨额投资的可持续性。
惊人千亿估值、三大巨头争夺!Sam Altman 不愧「史上融资最强」
OpenAI 新一轮融资估值将超过 1000 亿美元,比年初估值高出 16%,甚至可能达到 1250 亿美元,全球市值 Top 3 公司微软、苹果、英伟达都参与其中。
特朗普再借币圈拉票:要让美国成为「全球加密货币之都」
一个月前特朗普向币圈抛出多个承诺,包括让美国成为首个将比特币列为战略储备资产的国家。
著名社交平台 Telegram 创始人法国被捕,面临洗钱、恐怖主义等多项指控
由于杜罗夫被捕,对 Telegram 及其加密货币项目潜在监管合规性的担忧激增,投资者大幅抛售持有的相关代币,Toncoin 一度暴跌逾 20%。
比特币期货遭遇激进做空,ETF 资金却流入加速,逼空行情一触即发?
最近几周比特币的永续掉期资金费率为负,同时未平仓合约量激增。与此同时,美国现货比特币 ETF 在过去十个交易日中的八天都保持了正流入。
反弹机会?比特币或迎「空头挤压」
近期,比特币永续掉期的融资利率平均为负值,各大交易所比特币、以太坊等空头头寸激增,表明市场看跌情绪浓厚。加密货币专家警告,「空头挤压」的风险正在上升,或为比特币带来一波强劲反弹。
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑