Z Potentials 03月04日
深度|AI法律独角兽Harvey CEO:基于结果的定价是未来;AI原生用户体验在于模拟与人合作的体验
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Harvey是专为法律和专业服务领域打造的AI,其产品帮助用户和律师处理各类法律工作,市场需求推动其发展,且在产品构建、客户互动等方面有独特之处,使用率不断增长。

🎯Harvey是专为法律和专业服务打造的AI,可自动起草文件等并提供辅助功能。

💪Harvey占领市场的关键在于融合法律专业知识,法律专家参与销售和产品AI团队。

🤝Harvey的互动模式强调与人类合作,构建类似‘AI原生’的用户体验方式。

📈Harvey的使用率从40%增长到70%,由不同职能部门共同推动。

a16z 2025-03-04 13:33 上海

“我们没有选择的余地,只能在现有工具和软件的基础上进行构建,因为根本没有专门为律师设计的工具。因此我们选择了一个基于AI的原生用户体验和应用。”

图片来源:a16z

Z Highlights

Aatish NayakHarvey公司的产品负责人,Harvey是一家专注于法律领域的AI初创公司,其产品在大型律师事务所和其他专业服务提供商中得到了广泛应用,正在改变法律工作流程和专业服务的面貌。本文为Aatish Nayaka16z合伙人Kimberly Tana16z节目中的访谈实录。

Harvey的创立

Aatish我是Aatish,在Harvey负责产品工作。我加入Harvey已经一年半了,当时公司大约有30人,如今我们已经扩展到250人,这一路的成长经历非常精彩。总体来说,我的职业背景主要是在高速增长的AI初创公司。

在加入Harvey之前,我在Scale担任产品负责人四年半的时间。再往前,我曾在Shield AI工作,该公司也是a16z投资的企业。能够第三次经历这样的高速增长,并成为Harvey的一员,我觉得非常荣幸。因为这是人类历史上的一个关键时刻,很多事情都会发生变化,而我很兴奋能够站在前沿,见证并推动这些变革。

Kimberly对于不太熟悉Harvey的观众,或者在线收听的人来说,Harvey具体是做什么的呢?我觉得很多人知道Harvey这家公司,但可能并不清楚它的产品到底是什么。

AatishHarvey是专为法律和专业服务领域打造的AI。我们的产品可以帮助用户和律师自动起草合同、战略咨询备忘录等文件,并提供更多辅助功能。

Kimberly明白了。在深入探讨构建应用型AI的实践之前,Harvey主要解决哪些特定的应用场景呢?毕竟,法律和专业服务领域的工作流非常多,理论上可以有很多不同的应用方式。

Aatish从法律领域的角度来看,大致可以分为两到三种主要类型的法律工作。交易类工作:涉及并购(M&A)、风险投资、大型交易等,这些往往涉及巨额资金;诉讼类工作:例如有人起诉他人,或是涉及法庭案件,这通常也涉及大量金钱;企业法务:专注于企业内部法务团队和法务顾问的工作。

这三个类别是法律服务的主要板块,而我们针对这些领域提供不同的支持。以并购为例,企业需要进行尽职调查,其中包括了解目标公司的法律责任、财务状况,以及潜在的风险点。尽职调查本身可以细分为1012个不同的工作流,而我们正是在这些不同的流程中提供支持。同样地,在诉讼领域,我们也专注于支持其中的不同环节。总体而言,我们的产品围绕这些核心流程,帮助提升效率。

Kimberly在硅谷,长期以来有一种观点认为,向律师事务所或专业服务机构销售技术产品并不是一个很好的市场机会。毕竟,这些行业以技术接受度较低著称,而且许多人认为它们的计费模式与提升效率或采用新技术的目标并不一致。Harvey在这方面的观察是什么?

Aatish是的,我认为这里有两个方面:市场环境和Harvey具体做了什么。

首先,市场时机对于任何初创公司来说都至关重要。如果你回顾202211ChatGPT的发布,那确实让许多人第一次真正感受到通用AI的力量。律师、企业法务顾问、管理合伙人、首席信息官等行业人士开始理解这项技术,并意识到它可能会彻底改变他们的工作方式。在ChatGPT之前,AI对许多人来说仍然是一个模糊的概念,他们不知道该如何应用它。但当ChatGPTAI直接进入用户手中时,法律行业的变革就已经势不可挡了。既然变革已经成为共识,许多企业客户开始向律所施压,比如说:我们公司已经在使用AI了,你们律所也应该采用AI来提高效率、完成更多工作。

法律市场本身竞争非常激烈。在任何一个地区,通常都有45家主要律所在相互竞争。因此,律所需要向客户展示自己的创新能力,这不仅能提高运营效率,还能吸引更多客户。在这种市场竞争的压力下,各大律所开始主动寻求技术革新。而Harvey进入市场的时机刚好迎来了这股完美风暴,市场的需求和技术的成熟度刚好达到一个临界点。

Harvey具体做了什么?Harvey之所以能够迅速占领市场,关键在于它深度融合了法律专业知识,并在公司内部不同职能部门都嵌入了法律专家。

1)法律专家参与销售。在早期阶段,我们让真正的律师来销售产品,比如由律师担任客户经理。我们的CEO本身也是律师,而我们的法律研究主管同样具有律师背景。这样一来,我们的销售团队在与律所沟通时,能够使用专业术语、精准共情,并且他们本身就来自Harvey的目标客户群,因此非常清楚律所的运作方式。这种策略极大地帮助我们拓展市场并建立销售体系。

2)法律专家嵌入产品和AI团队。除了销售团队,我们还在产品和AI团队内部嵌入了法律专家。例如,我们设立了一个专门的法律研究团队,该团队直接与产品经理和AI工程师合作。他们的核心任务是将法律流程转化为算法。

从技术角度来看,Harvey的底层架构类似于一个代理式或复合式的AI系统,它的运行方式与律所的工作流程高度相似。在传统律所中,合伙人接到一个案件(无论是交易还是诉讼),会把任务拆分成多个部分,分派给初级合伙人。初级合伙人再进一步拆解任务,并交给助理律师。助理律师完成工作后,逐级向上提交审核,最终由合伙人交付最终成果给客户。Harvey的法律专家与工程师合作,将这一层级化的流程转换为AI模型,以自动化处理不同类型的法律任务。他们会先在白板上绘制出法律工作流的详细步骤,然后AI工程师再将其转化为AI驱动的系统,使其能够像真实的律所一样运行。

Kimberly你认为这些不同的agentic workflow,是否取代了人们之前所做的某种劳动?还是你更倾向于经典的“agentic劳动替代“co-pilot模式的区分?

Aatish是的,这个问题很好,我认为这有点过于狭隘。总体而言,法律领域非常复杂,而且变得越来越复杂。全球化、互联网和AI在过去几十年中极大地增加了法律工作的量。所以,法律工作基本上需求是无限的,因为公司想要进行各种交易、诉讼等等。

所以你有无限的需求,而这意味着供给非常有限,而供给受限的悲剧性人力成本就是经常需要长时间做非常单调、枯燥的任务。当和我们的律师客户交流时,他们成为律师并不是为了写同一份文件的第五版,或者重复问同样的法律问题。他们成为律师是为了创造性地运用法律、发表意见、塑造社会的结构。所以我们经常听到客户说,Harvey让他们节省了30%40%的时间,因为它帮助他们自动化那些枯燥的基础工作。实际上,前几天我们的一位客户表示,Harvey让他能准时回家陪家人,因为它加速了很多事务。无限的需求,有限的供给,这是AI大有作为的地方。

客户互动模式

Kimberly你能再谈谈互动模式实际会是什么样子的吗?

Aatish好的,这是一个关于生成式AI的普遍问题,什么是人的组成部分,多少是完全自动化的?我觉得现实情况是,比如说你正在起草一个S4文件或S1文件,S1是你公开上市时使用的文件,你不可能把它一次性输入到最大的推理模型中,跟它说嘿,给我写一个S1文件,搞定它o1模型不可能一次性搞定你的S1。起草S1文件或处理并购过程是一个与双方互动的过程,不仅仅是律师事务所、客户,还包括其他相关方。因此,我们认为这些agent必须与人类良好合作才能完成工作,因为人类可能有一些特定的意图,他们没有告诉agent,或者他们可能有一些数据,而agent并没有。

我们考虑将这些agent构建成一种类似“AI原生的用户体验方式,这样它们才能与不同的组织合作,真正完成工作,并说,嘿,我写了这份草稿,我的方向对吗?给我更多信息,因为我不清楚该如何处理这里的决定。所以我认为我们会开始看到更多主动的agent,它们会主动联系各个公司的不同人员,并且有效地协作完成工作。

Kimberly明白了,可能稍微回到我刚刚问的那个问题,就是关于市场整体如何变化,以及ChatGPT是如何成为企业意识到变革已经发生的那个时刻。这是否改变了法律事务所对收费等方面的看法?因为人们长期以来对法律行业的一个看法是,由于计时收费模式,从利润角度来看,你花了多少小时其实并不重要,即使人们想回家陪孩子。

Aatish我认为这又回到了市场动态的问题,需求是无限的,你只是需要更高效地服务这些需求。我们最初采用的是基于席位的模式,基本上按席位收费,这并不是因为我们不相信基于结果的定价或者按工作收费是未来的发展方向,实际上只是因为我们想让企业买家更容易理解。风险投资界有一句话,基于结果的定价是未来。它正在发生,我认为它会发生。但我认为人们必须明白的是,企业还不知道如何考虑购买基于结果的工作,尤其是像AI这样的实验性产品。我认为这会随着时间的推移发生。

Kimberly我知道在将AI部署到企业中时,当某些客户第一次使用时,有些人可能不知道如何使用它,因为这是一种全新的用户体验,很多时候人们不知道如何去引导agent。你们是如何考虑需要做哪些事情,才能让企业从AI产品中真正获得价值的呢?

Aatish:我们的使用率从去年早些时候的40%增长到了现在的70%(衡量单位是每月在一定数量座席上的活跃用户),我认为这种增长很大程度上是由不同职能部门共同推动的。

比如,GTM销售团队,如我所说,我们在销售团队中嵌入律师,因为他们来自这个领域,并且了解我们的很多客户类型,他们非常重视一个具体的入职培训项目和用例构建。他们讲的是行业行话,确切知道如何完成某个用例,这使得用户更容易接受。这是销售和GTM方面的做法。

在客户成功方面,我们实际上尝试在内部对许多部署进行游戏化,我们的客户成功团队经常举办大规模的发布活动或者用例竞赛。律师事务所喜欢在LinkedIn上发布内容,因此,如果我们说某人是最优秀的AI提示工程师之类的,他们喜欢在LinkedIn上谈论这件事,创造了一种非常健康的竞争心态。

Kimberly对,然后另一个问题是,随着你们扩展到其他行业,你已经在公司待了大约两年,并且想要超越法律行业进行扩展。我很想先了解一下为什么要选择扩展到其他行业,而不是更深入地拓展法律行业?同时,你认为现有的产品组合以及市场推广策略在新垂直领域的适用性如何?

Aatish我们有很多法律行业的客户,但我们不想仅仅依赖于现有成绩,变得自满。我们有一个文化原则,叫做“Job's not finished”,这是对科比名言的引用。我们从不想变得自满。我们的很多努力仍然集中在法律领域,但我认为总体来看,如果你看交易、诉讼、律师以及法律工作,通常会涉及到很多不只是法律的行业。

例如,在交易中,如果你在进行并购,就会有税务人员、财务人员、HR人员一起参与这些团队的整合。所以通常来说,我认为如果说只有律师才能使用Harvey并从中受益,这其实会有失公允,特别是在这个交易过程中。所以我们的思路是,随着我们做这些大型项目式的工作流,我们可以扩展到比如:也许税务专业人士需要了解和法律人员一样的内容,只是多了一些增量的内容

因此,我们实际上是通过律师以及他们所参与的项目,逐步自然地扩展到这些垂直行业。做法有几种。通常,我们采取的是非常以客户为驱动的方式。我们的很多企业客户实际上已经让他们的合规团队和人力资源团队使用Harvey,如果你在审查雇佣合同,那么HR团队显然会非常参与。因此,这是一条途径,就是在企业内部自然扩展。

然后,我们非常注重客户驱动,与领先的公司合作。所以我们与普华永道合作,构建了定制的税务和财务尽职调查系统,在国际上,他们是税法专家,也是财务尽职调查的专家,他们帮助我们了解了很多这些领域的内容,并推动我们向这个方向发展。所以我们一直在为这个扩展播种,未来23年内,确实会自然扩展到这些领域。

Kimberly你说的定制模型定制工作流是指什么?是指像普华永道特定的定制,因此你们其实不想把它带入到类似的客户中?

Aatish在税务工作方面,全球的税务律师会问很多关于特定税法的问题,以及如何将这些法条应用到他们的客户身上。很多这方面的知识实际上都集中在普华永道,世界领先的税务专家,尤其是在英国税法方面的,其实都在普华永道。

所以当我们说在构建定制系统时,我们实际上在使用他们整理的大量数据,以及利用他们专家的专业知识和评估来改进这些系统。我们构建了各种微调的模型,整合了这些客户的数据和评估的RAG(检索增强生成)系统。我认为,普华永道在这方面是独特的,但随着时间的推移,我们也可能开始与其他专业服务提供商合作。

信任问题

Kimberly我确实想多聊聊产品构建方面的内容,以及你们如何看待评估、如何选择模型提供商等问题。但是关于这个话题的最后一点是,你提到普华永道在设计一些之前没有的定制项目方面是一个很好的合作伙伴,我想这首先需要普华永道方面的高度信任,因为他们在提供非常敏感的数据。同时,这也带来了很多开放性的问题,我认为所有的企业经营者或股东都会有这样的疑虑:我的数据到底是如何被使用的?它是否会被反馈到模型中?会不会被用到我的竞争对手那里?所以我很好奇你们是如何看待这些问题的?

Aatish我认为,这不仅仅是AI,在整个企业软件领域,这都是一个被低估且讨论不足的话题。企业级产品的成熟度远远不只是通过SOC2认证那么简单,更重要的是从一开始就在产品和工程团队中培养出适应企业需求的文化。

举个例子,我们从一开始就做了一些事情,因为我们选择了最具挑战性的客户,他们处理的是全球范围内的极为敏感的工作,对于他们来说,信任一个相对较小的初创公司来完成这些任务是非常重大的决定。因此,我们从一开始就实施了几项措施。

首先,我们制定了一个严格的数据训练政策。默认情况下,我们所有的文档和数据都不允许Harvey进行训练,甚至Harvey的员工也不能查看这些数据。我们称之为“eyesoff”政策,Harvey的任何员工都无法访问我们大部分客户的数据,因为这些数据是非常敏感的。

另一个方面是,我们有一份非常严格的外部供应商名单。比如,我们只能使用Azure部署的模型来改进我们的系统并支持我们的产品,因为Azure在企业界有很高的信任度,所有我们的客户都在使用大规模的Azure部署,所以他们对Azure高度信任。不过,这也意味着,如果有新的模型发布,比如GoogleAnthropic,或者Twitter上出现新工具,我们不能立即使用它们,必须严格遵守这一点。我认为这再次回到了产品和工程文化,我们必须确保工程师先理解这些新模型,而不能随意使用这些产品或部署。我们对这一点有非常严格的要求。

最后一点是,我们在早期就非常重视安全团队的建设。我们的安全负责人应该是作为前15名员工之一加入的,他帮助我们建立了一个非常健全的安全程序。当他站在银行的CIO或主要负责人面前时,他们就知道我们是一个可靠的公司,不像一个初创公司。因此,这些措施的结合对赢得客户的信任至关重要。

产品构建理念:AI原生用户体验

Kimberly关于构建应用型AI产品,你们的理念是什么?一方面,你们可以拥有客户,这很棒;另一方面,Twitter上每天都会有新的有趣的东西发布,现在几乎每个月都会有新模型问世,我想这对于要在上面构建一个稳定的产品极具挑战。

Aatish我认为有几种方式可以处理这个问题。我们常常会被问到一个问题,就是在为律师设计时,我们更注重现有的工作流程和现有的工作工具,还是更注重全新的原生用户体验?我想我们需要强调的一点是,目前并没有专门为律师设计的集成开发环境(IDE),也没有类似VS CodeCursor之类的工具。律师最常使用的两个工具是WordOutlook,我们正在与这两个工具进行集成。我们其实没有选择的余地,只能在现有工具和软件的基础上进行构建,因为根本没有专门为律师设计的工具。因此,我们选择了一个基于AI的原生用户体验和应用。

Kimberly什么是AI原生用户体验?

Aatish:我们的一个核心原则是,我们希望Harvey像一个同事,而不仅仅是一个AI或软件,我们希望它能给人一种像在与人合作的感觉。如果你在律所或者企业中与一个人共事,你通常可以和他们来回沟通。如果你给他们布置任务,比如说我找某个同事说,能帮我草拟一个一对一的披露声明吗?如果他们是个好同事,他们会问你,我需要更多信息,能告诉我信息来源是什么吗?格式和语气该怎么定?我们做的是什么交易?然后,他们可能会写个草稿出来,说,你能看看我做的对不对吗?我们希望Harvey也能有这种互动感,像是在和你来回沟通,指导你完成工作。

Kimberly那它还是一个聊天机器人界面吗?用户实际使用的是怎样的界面?

Aatish它更像是一个聊天界面,里面包含了一些动态的UI组件。我们还希望遵循一个原则,叫做宜家效应。这个概念的核心是,人们如果在某个事物的构建过程中有所参与,他们会对这个事物产生更多的责任感。宜家就很好地利用了这一点,他们把家具组装过程做得既愉快又有趣,还非常注重说明书和相关的细节,让人们在组装过程中投入更多的情感。正因为如此,宜家拥有一种迷信般的追随者,大家都喜欢自己动手组装家具。

对于我们来说,这意味着,你不能通过一键生成一个S1文件,因为法律工作是复杂的,需要很多反复推敲和讨论。你需要人类的智慧和独特的数据集。如果我们只是让Harvey去草拟一个披露清单,然后自动生成出来,没人会信任它,因为他们不了解这个过程是如何完成的。所以我们希望把这种反馈循环融入到Harvey的操作中,我们称之为“Shoulder Taps”,也就是说,Harvey在生成最终结果之前,会先询问反馈、数据和意图。

Kimberly如果我是个独立律师,实际操作中会是什么样子的?我知道很多UX实验都在尝试解决一个问题,就是在agent执行任务时,它会展示并告诉你它正在做什么,但也会有一些空闲时间,律师是否会收到类似回来,我有问题的通知?他们是如何将这些与日常工作结合起来,避免只是一直在那监视agent

Aatish对我们用户群和产品来说,一个有趣的地方是,我们并不受延迟的限制

我觉得很多聊天类产品或消费者AI产品,大部分人都期望能即时得到答案。但因为我们输出的质量非常高且接近人类,用户能够接受等待2分钟、3分钟甚至4分钟才能得到结果。正因为如此,我们能在每次处理时加入更多的智能,更多的模型调用和更多的算法。

所以用户能接受等待且没问题。我们还开始增加异步agent的功能,agent完成任务后会通过邮件或消息提醒用户。因此,延迟对我们来说并不构成大问题,这也给了我们更多的自由度去开发。只要agent能提供透明的操作过程,而不是无休止地旋转加载,我认为这种方式是适合我们用户的。

Kimberly你觉得我们现在已经找到了最适合的AI原生UI或用户体验了吗?如果答案是肯定的,我很想知道它是什么。如果答案是否定的,你认为目前仍在进行哪些实验,或者你认为哪些工作流程仍未被完全解决?

Aatish简单回答是没有。我认为聊天界面就像AI的命令行。当微软文档最初发布时,人们只是通过终端输入命令来移动东西,这就是我们现在与AI的关系。我希望到2025年,我们能够看到更多AI原生用户体验的创新、动态的用户界面和新的模型互动的方式,不仅仅是基于文本的。

首先,人们必须意识到,大部分用户,包括我们的用户,提出的查询或提示往往没有明确规范。有趣的是,人们已经对AI非常信任,很多时候他们理所当然地认为AI什么都知道。我们收到很多技术支持请求,内容大致是请进入我的邮箱搜索某个东西并生成结果或者你记得我上次谈论的那个吗?用它来得出答案

我认为这是一种教育问题,但同时我也认为,AI必须与个体合作,更好地提取个体的意图,而不是仅仅依赖一次性命令来得到完全准确的结果。我希望能看到agent提供更多独特的互动和指导,而不仅仅是基于文本的提示。

我认为对于企业来说,这种AI原生用户体验甚至更为重要,因为工作非常复杂和困难,很多时候工作是由一个团队或多个人来完成的。因此,企业需要更完整、更自然的用户体验。由于应用场景极其多样,AI的使用方式也千差万别,可能最佳的UI是聊天界面,因为它非常开放,可以用一个开放的界面覆盖整个市场,这也是我们看到的现象。因此,我认为在企业级应用中,应该更多地实验AI原生用户体验,因为工作流程非常具体,任务非常困难,而且再次强调,永远不可能一蹴而就。

基础架构与模型

Kimberly明白了,我们换个话题。我想了解一下你们在底层基础架构上的考量,能分享一下吗?比如,你们主要使用的是哪种模型?如果有新的模型能力出现,你们是如何考虑替换或升级的?

Aatish就像我之前提到的,Harvey由数百个不同的模型调用组成,基本上是一个代理式或复合式的AI系统,用来生成输出。目前,我们主要在生产环境中使用OpenAI的模型,无论是直接通过OpenAI,还是通过Azure访问。选择它们的原因有几个:首先,这些模型的质量非常好;其次,无论是OpenAI还是Azure的基础架构都很优秀,速度快、安全性高,并且能够赢得客户的信任。正如我之前提到的,Azure已经成为我们的默认云计算平台,而这也是我们能够建立信任的关键。

不过,我们并没有被OpenAI绑定。实际上,我们已经与所有主要的AI研究机构合作,帮助他们评估产品,并就法律推理、数据集共享以及我们的洞见提供建议。因此,我们对采用不同的模型持开放态度,但由于安全性和基础架构的限制,目前我们还没有大规模进行模型替换。

Kimberly你们更换模型的难度有多大?因为AI模型是非确定性的,假设更换模型后出现了一些意外情况,你们是如何进行评估的?如何确保用户体验的一致性?

AatishAI基础架构的角度来看,我们在早期就非常注重模块化设计,这样我们可以随时替换模型的调用方式和端点。正如你提到的,真正的挑战主要在于评估。每个模型都有不同的个性、特征和行为,同样的提示词或训练数据在不同模型上可能不会产生相同的效果。因此,模型的替换需要大量的评估,以确保质量不会下降。

Kimberly你们是否已经建立了内部评估体系来处理这个问题?

Aatish评估对我们来说是一个核心关注点。我之前在Scale工作,深知高质量的人工专家数据对AI系统的建设至关重要。我们主要从两个方面来考虑评估:内部评估,用于优化我们的AI系统;外部评估,用于向客户展示AI的价值。

在内部评估方面,我们有一支由内部专家和外部合同律师组成的团队,涵盖各个国家和法律领域,进行各种评测,包括绝对评估和相对评估。绝对评估:针对某个具体的内容,按照设定的标准进行评分。相对评估:对比两个版本的结果,并按照优劣排序。我们在这方面投入了大量资源,并随着公司的发展不断扩大评估体系。

在外部评估方面,挑战在于法律工作本质上是对客观事实的主观分析,而主观判断很难量化,法律并没有唯一正确的答案。比如,如何判断某种法律适用是否比另一种更优?这些都难以用简单的准确率衡量。此外,法律任务的复杂性极高。按照法律分类法,律师的具体任务可能多达10,000个不同的子类,许多律师已经对其进行过详细的映射。因此,我们的难题在于如何向客户传达Harvey的能力,证明它的准确性,并确保它不会产生错误的推理。

我们投入了大量时间,并于去年年初发布了名为Big Law Bench的基准测试。该测试涵盖了律师日常工作中涉及的真实计费任务。这是同类测试中的首创,之前所有公开的法律基准测试基本上都是选择题。如果法律工作只是选择题,那当然会简单得多,但事实并非如此——法律工作具有高度开放性,复杂且充满不确定性。

我们推出的这个基准测试,旨在展示律师实际执行的任务,以及Harvey在这些任务中的表现。此外,我们的评估方式也具有独特之处——我们并不单纯衡量准确率,而是衡量模型在整体工作量中所完成的比例,并将其与100%由人类完成的结果进行对比。

Kimberly你的意思是衡量所需的时间吗?

Aatish更准确地说,是衡量完成度。例如,Harvey可能已经完成了85%-90%的披露清单起草工作,而人类律师只需要补充剩下的10%。之所以采用这种评估方式,是因为如果单纯以准确率为标准,没有人会信任一个90%准确的智能系统。这种评估框架并不能真正体现AI的价值,因为即使AI只能完成90%的任务,它仍然比从零开始要有帮助得多。

Kimberly最后一个问题,虽然有些偏题,但还是想请教一下。当你谈到更换模型的基础架构,并进行评估以确保用户体验保持一致、产品质量不下降时,我想到OpenAI最新的推理模型。因为在众多应用场景中,法律工作应该是对推理能力要求较高的领域之一,你们是否观察到这些模型带来了显著变化?这对你们在选择模型时有什么影响?

Aatish对我们的产品和客户来说,这确实是一次重大的突破。正如我之前提到的,我们的客户对延迟的容忍度较高,而这些推理模型的一个特点是它们需要时间来思考,并展示推理过程和思维链路。由于我们的产品本身就是按照这种方式设计的,因此引入这些推理模型非常自然。

AI角度来看,这些模型在长文本撰写和复杂推理方面表现非常出色。例如,基于多个事实来源起草一整份驳回动议,在此之前是无法做到的,而现在有了这些推理模型,才真正成为可能。

Kimberly这个问题可能会有点细节,但我想探讨一下度量标准的问题。比如,你提到按席位算,这是一个非常清晰的衡量标准,而按使用量计算在工单支持系统中也很直观——每张工单就是一个度量单位。那么,在这些评估任务中,你们是如何定义单位工作量的?我想这对很多人来说可能不太直观,尤其是这个领域相对较新,大家可能还不太能准确理解它的含义。

Aatish这个问题本身确实非常复杂,而且衡量标准因任务不同而异,也因客户不同而有所差异。比如,创建一个案件的时间轴,不同律所可能有完全不同的方法。

我们首先尝试标准化任务名称和分类体系,然后再制定相应的评估标准。例如,律所A和律所B可能在时间轴中放置日期列的方式不同,但它们至少都会包含日期字段。实际上,我们为每种主要法律任务制定了一整套独特的评估标准,这些标准完全基于该任务的特性。尽管我们在努力标准化,但由于不同法律工作的高度复杂性和多样性,仍然存在很大的变异性。

KimberlyHarvey是否已经构建了自己的基础模型?或者你们有相关的计划吗?

Aatish简单来说,没有。我们并没有构建自己的基础模型,而是与OpenAI深度合作,通过微调、后训练、提示工程、检索增强生成等方式,来构建代理式和复合式AI系统。

Harvey的竞争优势与行业前景

Kimberly明白了。那么你们未来有意向构建自己的基础模型吗?无论答案是还是,我都很好奇你们的思考逻辑是什么?

Aatish简单来说,不会。我们不打算构建自己的基础模型。计算成本的公开数据已经说明,训练基础模型极其昂贵。我们更愿意将这部分交给专业团队,自己则专注于为最终客户提供价值,并围绕此构建产品。

Kimberly所以你们不想自己做基础模型。我很好奇,随着基础模型的能力不断提升,很多人认为AGI可能会在三到五年内实现。你们如何看待这些基础模型?它们最终会不会成为你们的竞争对手?毕竟,它们的推理能力越来越强,现在也能执行更多特定领域的任务。

Aatish我们必须假设这些模型会变得越来越强大,那么这对我们意味着什么?我们的竞争优势不能仅仅依赖于模型本身,而是要积累其他类型的优势,比如产品、数据、网络效应和品牌。

在产品方面,我们认为企业级平台至关重要。很多人低估了企业级产品的部署难度,即使是AGI未来发展到一定程度,可能也会低估银行等机构的安全审查要求。我们已经构建了安全审查、权限管理、审计日志、使用仪表盘等功能,这些都是企业和管理层所需要的。像SAPServiceNowWorkday这样的公司已经在这方面深耕数十年,这也是为什么大型企业会选择它们。因此,我们认为投资于企业级平台是非常重要的。

在用户体验方面,AI与整个组织的协作方式,不可能仅仅依赖于聊天界面。我们需要在用户体验和工作流相关的UX设计上进行创新,确保AI能够无缝融入企业工作流,而不是只作为一个聊天工具。

数据也是一个关键优势。AGI不会掌握存储在律所本地服务器上的数据,而许多律所确实仍然使用本地服务器。这些律所的独特竞争力,在于其历史上的交易、案件和相关数据,而这正是Harvey目前在做的——利用这些数据,定制输出和工作流,以更好地适应不同律所的需求。

总体而言,我们的竞争力不仅仅在于AI模型本身,而在于产品、用户体验、数据积累等多方面的优势。

Kimberly所有这些AI热潮,以及我们每周听到的新进展,实际上在企业内部渗透了多少?从我们听到这些信息到它们真正部署到企业中,通常会有多大的滞后性?

Aatish企业获取信息的方式,和硅谷的情况有些类似,硅谷的人通常通过X获取信息,而我们的律所客户往往主要通过LinkedIn获取行业动态。因此,我理解客户群体的最佳方式之一,就是关注LinkedIn上他们的行为,看看他们点赞哪些内容、关注哪些人,因为这些地方才是行业讨论真正发生的地方。

回顾去年这个时候,我们去找客户时,他们可能听说过AI,但完全不知道ChatGPT,更没用过。这对我来说是一个很大的冲击。毕竟,我的背景是在AI领域深耕多年,AI对我来说是日常话题,而我原以为ChatGPT至少已经广泛传播了。但事实是,它远没有我想象的那样深入企业。

快进到现在,大多数人至少听说过ChatGPT,但很多人仍然没有真正使用它。你不会去问科技行业的人为什么不用ChatGPT,但在我们的律所客户以及更广泛的法律行业中,虽然ChatGPT的知名度已经很高,但真正使用它的人仍然不多。

至于企业应用,ChatGPT发布已经两年半了,大多数企业至少内部部署了一些聊天机器人,或者会使用copilot来起草邮件等基础任务。但即使是在领先的企业(不仅仅是律所),我们仍然没有看到AI在特定工作流中的深入应用,而这正是Harvey试图推动的方向。

所以,回到你的问题,我的结论是——我们仍然处于非常早期的阶段。即便AGI突然爆发,那些活跃在LinkedIn的律所可能五年后才会真正接触到它。这种现实对我们团队来说,反而是一个很好的共情测试”——大多数人并不知道AI领域正在发生的事情。这也是为什么,我认为有很多机会留给AI应用型创业公司,去深入这些被忽视的市场,这些市场目前仍然是一片蓝海,等待着创新的进入。

Kimberly我接下来的问题,你可能已经部分回答过了——他们是否考虑过如何调整自己的商业模式或人员配置模式,以适应AI的影响?也许答案是否定的,毕竟在LinkedIn上,我们并没有看到人们讨论即将到来的AGI,而在硅谷,人们在谈到专业服务或基于计费的业务模式时,会频繁讨论这个话题。

Aatish其实,这种思维方式大概每36个月就会发生变化,这可能正是信息传播的领先或滞后周期。比如,六个月前,律所的客户大多会说:不要在我的项目中使用AI”,理由是信任问题、风险问题等。但到了去年年底,客户的态度已经变成:你必须在我们的项目中使用AI,因为这能提高效率。这种理解还在不断演变中。

我们确实看到了一些前沿公司和客户,他们主动拥抱AI,甚至推动变革。他们的态度是:我们认为AI会彻底改变我们的业务模式,因此我们必须尽早入局,主动引导和掌控这一变化。这些客户可以算是AI变革的先行者。但从整体来看,大多数人只是知道变革即将到来,但他们并不清楚具体会发生什么,也不知道该如何应对。

Kimberly其实我们也不知道。

Aatish对,我们也不知道。

KimberlyAI几乎每天都在进步,现在不断有新的AI公司和能力涌现。你怎么看未来几年AI在企业中的发展?如果要做一些预测,你认为AI在企业领域真正能创造价值的主要方向会是什么?哪些关键突破仍然是AI大规模落地的瓶颈,以至于更多企业尚未看到明确的投资回报?

Aatish我认为,在硅谷,人们经常讨论AIAGI的腾飞,认为模型会变得极其强大,发展迅猛,最终所有人都能幸福地生活,不再需要工作,直接退休。但我认为,智能本身并不是唯一的关键因素。在AI部署过程中,我们还会遇到人为瓶颈,比如信任问题,以及如何让AI更好地与人协作。

此外,我希望2025年能看到更多企业级AI公司深入了解客户,真正理解他们的工作流程,以更具体的方式将AI融入其中,并围绕这些需求构建产品和用户体验,从而建立企业级信任。

因此,我并不认为在未来两三年内,我们就能达到所谓的AGI天堂。相反,真正推动AI发展的仍将是那些专注于客户需求的企业级AI公司,它们会通过深入的行业应用,在具体的工作流程中找到AI的独特价值。

原视频:Agents, Lawyers, and LLMs

https://www.youtube.com/watch?v=ZESTYyGZ7Y4

编译:Jiawen Fu

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

-----------END-----------

我们正在招募新一期的实习生

我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Harvey 法律AI 用户体验 市场需求
相关文章