喝点VC｜BVP语音AI最新研究：语音到语音模型突破使语音转文本模型成为历史，语音AI迎来新一波创业机遇

作者：BVP 2024-11-25 12:24 北京

语音AI突破，提升对话性能和可靠性。

图片来源：BVP

语音AI近期的发展不仅仅是软件用户界面的升级，它还正在改变企业与客户之间的连接方式。

近期，语音到语音（STS）模型有了突破性进展，这些模型专为处理基于语音的任务而设计，不需要将音频转录为文本。这些模型解决了传统级联架构的关键局限性，特别是在延迟和对话动态方面。

质量对于语音应用至关重要。构建高质量的产品需结合正确的模型、集成、对话流和错误处理，创造一个能够高效解决用户问题的agent。

语音AI不仅仅是软件用户界面的升级，它正在改变企业与客户之间的连接方式。

试想一下：你的航班刚刚被取消，你正站在机场登机口，试图联系航空公司客服，但他们告知你：“由于来电数量增加，等待时间比平时更长。”你陷入了无尽的自助模式迷宫，每当某个选项无法解决你的问题时，你都重复着“想和客服代表通话”。最终，你终于接通了一个客服人员，他们却将你转接到另一个人，迫使你重新解释一遍情况。与此同时，时间一分一秒地过去。你离重新订票或解决问题依然遥不可及，住进机场过夜酒店的前景似乎不可避免。这是一场充满压力、昂贵且人人都经历过的旅行噩梦。

现在再想象一下：你打电话给航空公司，接通后，不是长时间的等待、机器人语音或一连串的选项，而是一个人工智能，立即理解你的情况。它知道你错过了航班，基于你的偏好建议最合适的替代航班，并且直接处理重新预订。这只是语音人工智能技术应用于我们都熟知的问题中的一个例子——就像大多数变革性技术的应用一样，我们还没有发现最具吸引力的用例，因为在人工智能出现之前，这些用例是无法实现的。

图片来源：BVP

随着语音技术各层面的进步，语音AI解决方案终于能够进行类似人类的对话，个性化客户体验，并且能够无限扩展，以应对全天候需求高峰，从而使那些让人沮丧的机器人互动成为过去的遗物。未来甚至可能出现这样的情况：在某些情况下，消费者可能更愿意与AI Agent进行对话，因为这是解决问题的最便捷方式。

语音AI不仅仅是软件用户界面的升级；它正在改变企业与客户之间的连接方式。语音本地化AI模型与多模态能力的融合，使得语音AI能够颠覆那些人际沟通至关重要的行业。我们相信，投资语音AI将开启商务沟通的新纪元，让企业在满足日益增长的客户期望的同时，更高效地扩展其运营。

人类喜欢交谈，我们经常说话，每天进行数百亿次电话通话。尽管短信、电子邮件和社交媒体等其他沟通方式普及，但电话仍然是大多数企业的主要沟通方式。在医疗、法律服务、家庭服务、保险、物流等行业，企业依赖电话沟通来更有效地传达复杂信息、提供个性化服务或建议、处理高价值交易以及应对紧急、时效性强的需求。

然而，绝大多数电话未能接听。例如，中小企业平均错过62%的电话，错失了满足客户需求和赢得更多生意的机会。现有模式存在多重低效问题：工作时间外的电话被转至语音信箱，人工只能接听一个电话，且支持质量不稳定——导致等待时间长、非工作时间的延误和糟糕的客户体验。尽管公司投入大量资金建立更大的呼叫中心或老旧的自动化系统，但依然难以克服这些基本的限制。

此前，旨在增强电话工作效率的技术整合尝试未能取得显著成功。以打电话给航空公司为例，客户往往需要帮助才能应对过时的互动语音响应（IVR）系统，这项技术可追溯到上世纪70年代。IVR是指自动化系统说诸如“按1重新预定”或“请简短说明您打电话的目的”之类的话。这项过时的技术最初是为了自动化接听电话而设计的，但它基于一个僵化的系统，只能处理预设的命令，无法真正理解来电背后的意图或紧急程度。尽管对更好语音自动化技术的需求日益增加，企业仍受到技术能力的限制，无法以高效且令人愉快的方式提供语音产品来解决客户问题。

为了更好地理解为什么现在是语音作为接口的一个重要转折点，我们可以回顾一下语音技术的演变。最初是如上所述的IVR系统，尽管企业和消费者几乎普遍对IVR持反感态度，但IVR至今仍然代表着一个超过50亿美元的市场。

这些改进催生了语音技术的第二波创新，自动语音识别（ASR）软件，也被称为语音转文本（STT）模型，专注于转录，使机器能够实时将口语转化为文本。随着ASR在过去十年间接近人类级别的表现，我们看到了几家新公司在ASR技术基础上崭露头角，包括Gong和我们的投资组合公司Rev。

ASR/STT技术的进步随着2022年底OpenAI发布开源的Whisper模型以及其他相关技术的推出继续推进，这些技术帮助推动了更加自然的对话系统，使其能够处理自然语言，而不仅仅是僵化的菜单选择。尽管如此，ASR仍然在处理口音、背景噪音以及对语气、幽默、情感等细微差别的理解方面存在一定困难。

在过去的一年里，语音AI领域出现了一波跨越研究、基础设施和应用层面的变革性进展。生成性语音技术的迅猛发展，促使像Eleven Labs等公司重新定义了语音合成（TTS）技术，创建出能够展现前所未有的情感细腻度的模型，使得AI听起来比以往任何时候都更像人类。谷歌推出的Gemini 1.5将多模态搜索引入其中，结合了语音、文本和视觉输入，创造了更丰富的用户体验。紧随其后，OpenAI推出的语音引擎进一步推动了语音识别的边界，生成的语音更接近自然对话。然而，最重大的突破出现在GPT-4o的发布，它能够在音频、视觉和文本领域进行实时推理。这标志着AI能够理解和处理人类语言，并通过多模态深度与智能作出回应，迈出了历史性的一步。

这些创新带来了两个主要发展方向：

1. 高质量模型的涌现

首先，越来越多的高质量模型支持了对话语音堆栈，这促使大量开发者开始尝试语音应用。传统上，语音AI应用都采用了“级联”架构：用户的语音首先通过STT模型转化为文本，接着文本由大语言模型处理生成回应，最后再通过TTS模型将文本转化为语音。然而，这种级联架构存在两个显著缺点：延迟和非文本信息的丢失。

延迟是导致负面用户体验的主要因素之一，尤其是在延迟超过1000毫秒时，而正常的语音交流延迟一般在200到500毫秒之间。在过去一年里，像GPT-4 Turbo这样的模型发布，大大降低了延迟。但是开发者仍然需要进行大量的工程优化，才能使其应用接近人类级别的延迟。在此过程中，当语音转为文本时，情感和语境信息常常丢失，而且这些系统由于其僵化的轮流互动结构，在面对打断或重叠发言时也显得力不从心。随着STT、LLMs和TTS技术的快速进步和融合，这对开发者来说是个好消息。不同模型在延迟、表现力和功能调用等维度上的表现各有优劣，开发者可以根据具体用例选择最合适的模型。

2. 语音到语音（STS）模型的突破

其次，我们看到了语音到语音（STS）模型的突破性进展，这些模型专为处理基于语音的任务而设计，不需要将音频转录为文本。这些模型解决了传统级联架构的关键局限性，特别是在延迟和对话动态方面。与之前的模型不同，语音本地模型直接处理原始音频输入和输出，从而带来了显著改进：

超低延迟：响应时间约为300毫秒，接近自然人类对话的延迟。

语境理解：这些模型能够保留对话中的先前信息，理解口语背后的目的（即使以不同或复杂的方式表达），并且能够识别多个说话者而不丢失对话内容。

增强的情感和语调识别：捕捉说话者的情感、语气和情绪，并将这些细微差别反映在模型的回应中，从而带来更加流畅和自然的互动。

实时语音活动检测：这些模型可以在用户说话时同时监听，这意味着用户可以随时打断它们。这是传统级联应用的重大进步，后者通常依赖僵化的轮流发言结构，用户必须等待agent完成说话后，才能开始发言。这为用户带来了更自然、更高效的体验。

图片来源：BVP

语音本地模型是对话语音的未来。随着OpenAI最近发布的实时API，它通过GPT-4o支持语音到语音（STS）互动，许多公司、开源项目和研究倡议正在推动这一新型STS范式的发展。值得注意的例子包括Kyutai的开源Moshi模型、阿里巴巴的两个开源基础语音模型SenseVoice和CosyVoice，以及Hume的语音到语音共情语音界面（Empathetic Voice Interface）等众多项目。

质量、信任和可靠性是推动企业采用语音agent的最大挑战。部分原因是客户对传统IVR产品的不良体验感到厌倦，而许多现代AI语音agent在许多用例中仍然不够可靠，或者在全面推广时存在问题。大多数企业开始时会在低风险场景下使用语音agent，而随着他们向更高价值的用例迁移，语音agent的表现要求变得非常高。

例如，一家小型屋顶公司可能乐于在没有其他选择的情况下，让语音agent在下班后接听客户来电。但在这种业务中，每个客户电话可能代表一个价值30万美元的项目，因此他们可能会迟疑是否将语音agent作为主要接听服务，因为客户对于一个出错的AI Agent的容忍度极低，这可能导致失去一个重要的潜在客户。

通常，关于语音AI Agent的投诉可以归结为性能可靠性问题。这包括从电话完全中断到agent出现幻觉、延迟过高、客户感到沮丧并挂断电话等问题。好消息是，语音agent在这些方面正在不断改进。提供更可靠基础设施的开发者平台正在增多，重点优化延迟并确保在不打断对话的情况下平稳失败。对话编排平台则帮助agent在对话中遵循确定的流程，减少幻觉现象，并在agent与客户的交流内容上提供一定的框架限制。

我们正在见证语音AI技术在每一层的创新——从基础模型和核心语音基础设施，到开发者平台和垂直应用。我们希望支持在语音AI技术各个层面构建解决方案的创始人，以下是我们认为特别令人兴奋的几个关键领域：

图片来源：BVP

1. 模型：技术背后的基础模型提供商构建了支持各种语音驱动用例的技术。

现有的参与者主要专注于特定技能——例如SST、LLS和TTS——这些技能是为级联架构设计的。然而，显然，语音AI的未来将依赖于多模态或语音本地模型，这些模型可以原生处理音频，而无需在文本和音频之间来回转录。下一代语音AI厂商利用新架构和多模态能力引入了新颖的方法。例如，像Cartesia这样的公司正在使用状态空间模型（SSM）开创一种全新的架构。总体来看，我们预计基础模型将会有显著的改进，我们特别对能够处理更简单对话回合的小型模型的发展感到兴奋，这些模型无需依赖最强大的模型。这种将较为简单的任务交给小型模型处理的能力将有助于减少延迟和成本。

2. 开发者平台：尽管基础模型在延迟、成本和上下文窗口方面已有显著改善，但构建语音agent并管理实时语音基础设施仍然是开发者面临的重大挑战。幸运的是，一类专注于语音的开发者平台迅速崛起，帮助开发者抽象掉许多复杂性。这些开发者工具帮助解决的一些核心挑战包括：

优化延迟和可靠性：维护可扩展且高效的实时语音agent基础设施是一项重大负担，通常需要整个工程团队来管理。

管理对话线索、背景噪音和非文本信息：许多STT模型难以判断用户何时结束发言，因此开发者通常需要自己构建“结束点”检测来解决这个问题。此外，开发者还需要增强现有模型提供的背景噪声过滤以及情感和情绪检测功能。这些看似微小的功能对于提升通话质量至关重要，并且能够弥合演示和生产环境中客户更高期望之间的差距。

高效的错误处理和重试机制：语音模型API偶尔会失败，导致对话中断。构建可靠应用的关键在于能够快速识别失败的API调用，通过插入填充词争取时间，并将API调用重试到另一个模型，这一过程需要非常迅速地完成。

与第三方系统的集成和对检索增强生成（RAG）的支持：大多数商业用例需要访问知识库并与第三方系统集成，以提供更智能的响应并代表用户采取行动。在低延迟的情况下以自然的方式融入对话系统，这并非易事。

对话流控制：对话流控制允许开发者指定对话的确定性流程，给予他们比仅提供提示来引导对话时更多的控制权。这些流控制系统在敏感或受监管的对话中尤为重要，比如医疗呼叫，在这种情况下，语音agent必须确认正确的患者身份后才能继续进行下一步。

可观察性、分析和测试：语音agent的可观察性和测试在许多方面仍处于初级阶段，开发者正在寻找更好的方法来评估其在开发和生产中的表现，理想情况下，还能进行A/B测试。此外，跟踪这些agent在生产环境中规模化的对话质量和性能仍然是一个重大挑战。

大多数构建语音agent的开发者更愿意专注于创建与其产品独特的业务逻辑和客户体验，而不是管理解决上述挑战所需的基础设施和模型。因此，许多公司应运而生，提供编排套件和平台，简化开发者和/或业务用户构建、测试、部署和监控自动化语音agent的过程。一个例子是Vapi，它抽象化了语音基础设施的复杂性，并提供了快速构建高质量、可靠的语音agent的工具，适用于企业和自助客户。

3. 应用：最后，应用层的公司正在为各种用例开发基于语音的自动化产品。我们特别看好以下几类应用：

完全“为客户完成工作”，处理从头到尾的完整功能并提供有价值的成果的应用；

利用AI的按需扩展能力的应用——例如，在高峰时段同时处理成千上万的电话；

构建高度专业化、垂直聚焦的解决方案，深度集成相关的第三方系统的应用。这些能力使得语音应用能够获得高客户年收入（ACV），特别是在用于创造收入的场景中。

此外，我们也看到一些语音AI产品正在为那些通常不会在技术上花费太多的客户群体创造新的技术预算，极大地扩展了之前被认为过于小众的市场的总体可服务市场（TAM）。

然而，值得注意的是，质量对于语音应用至关重要。虽然展示一个令人信服的演示让客户购买很容易，但如果语音agent不能始终如一地提供高质量、可靠的服务，客户很快就会流失，这比说起来容易做起来难。构建高质量的产品需要结合正确的模型、集成、对话流和错误处理，创造一个能够高效解决用户问题的agent，并且不偏离轨道。付出额外的努力来建立这种质量水平，不仅对满足客户需求至关重要，而且有助于增强产品的防御性。

我们已经在应用层识别了几个功能机会。这些包括转录（例如：记笔记、根据对话建议后续行动）、接听电话（例如：预定约会、关闭潜在客户、管理客户成功）、外呼和筛选（例如：为招聘进行候选人筛选和面试确认）、培训（例如：销售或面试培训的单人模式）、以及谈判（例如：采购谈判、账单争议、保险政策谈判）。

我们很高兴支持一些语音AI领域的先行者，主要专注于转录用例。这从我们对Abridge的投资中可见一斑，Abridge记录医疗领域的临床对话；Rilla，分析并辅导家庭服务行业的外勤销售代表；以及Rev，提供跨行业的顶级AI和人工协作转录服务。

在语音AI的第二波浪潮中，企业正在向各种用例和行业扩展到完全对话式的语音应用。一个专门为特定行业量身定制的接听电话解决方案例子是Sameday AI，它为家庭服务行业提供AI销售agent。例如，当一个房主紧急需要修理时拨打暖通空调（HVAC）承包商电话，AI Agent可以接听电话，根据问题提供报价，处理谈判，安排技术人员并将其记录到客户的系统中，接受付款，并最终完成可能原本会失去的潜在客户。

在外呼领域，像Wayfaster这样的公司通过与申请者跟踪系统（ATS）集成，自动化了招聘过程中部分面试环节。这样，招聘人员可以在极短的时间内筛选数百名候选人，集中精力来锁定最佳候选人。

语音agent还变得能够处理跨多个模态的复杂任务。例如，一些公司正在帮助医疗办公室使用语音agent与保险公司谈判保险覆盖范围，利用大语言模型筛选数千份保险文件和患者记录，并利用这些发现进行与保险agent人的实时谈判。

随着基础模型的快速进步，目前最具创业潜力的机会主要集中在开发平台和应用层。模型的加速进展也使得创业者能够快速创建有效的最小可行产品（MVP），从而在不需要大量前期投资的情况下，快速测试和迭代产品的价值主张。这些条件使得现在成为在语音AI生态系统中进行创新的激动人心的时刻。

虽然我们大部分的语音AI投资理念与我们为投资垂直AI业务所制定的框架一致，但我们希望突出一些特定于语音解决方案的关键细节。特别是，我们强调语音agent质量的重要性。开发一个令人信服的演示容易，但从演示到生产级产品的转变需要深入了解行业和客户的具体痛点，并且能够解决广泛的工程挑战。最终，我们认为agent质量和执行速度将是这一领域成功的决定性因素。

以下是我们在语音AI领域构建解决方案的具体原则：

1. 深度嵌入行业特定工作流并跨模态集成

最具影响力的语音AI应用是那些深度嵌入行业特定工作流的应用。这种高度的专注使得公司能够根据行业的语言和对话类型量身定制语音agent，并实现与第三方系统的深度集成，确保agent能够代表用户采取行动。例如，针对汽车经销商的语音agent可以与客户关系管理系统（CRM）集成，利用过去的客户互动数据来改善服务并加速部署。此外，结合语音与其他模态的应用能够进一步增强产品的竞争力，通过处理复杂的、多步骤的流程，这些流程通常是人类独有的能力。

2. 通过强大的工程能力提供卓越的产品质量

虽然为黑客马拉松创建一个令人兴奋的语音agent演示相对简单，但真正的挑战在于构建高度可靠、可扩展并能够处理各种边缘案例的应用。企业需要稳定的性能、低延迟以及与现有系统的无缝集成。创始人应该专注于设计能够应对现实世界语音输入的不可预测性的系统，确保安全性并保持高可用性。这不仅仅是关于功能性，而是构建一个能够保证弹性、可靠性和适应性的基础，使顶级语音AI应用能够从简单原型中脱颖而出。

3. 平衡增长与用户留存及产品质量的KPI

语音agent在销售等收入驱动的功能中解锁了许多能力，许多语音应用公司正在经历快速而高效的增长，因为客户希望通过语音技术加速其市场推广（GTM）功能。

衡量指标：随着语音agent质量和可靠性变得愈加重要，故障的语音agent会导致用户不满，并可能转向竞争对手。创始人应优先跟踪反映产品质量的关键数据，包括以下几项：

客户流失率：客户流失率将是产品质量的明显指标，尽管它是滞后的数据。我们发现许多语音应用在早期阶段面临较高的客户流失率，特别是在客户将重要工作流程从人工转移到语音agent时，若agent未能提供可靠和一致的用户体验，最终导致客户不满意。

自助解决率：自助解决率越高，语音agent在无需人工干预的情况下完全解决最终用户问题的效果越好。

客户满意度评分：该指标反映了与语音agent互动的客户的整体满意度，提供有关体验质量的洞察。

通话终止率：高通话终止率表明用户体验不满意，问题未得到解决，意味着语音agent可能未能按预期执行。

用户群体通话量扩展：该指标衡量客户是否随着时间的推移增加了对语音agent的使用量，是衡量产品价值和最终用户参与度的关键指标。

在过去几年中，语音AI模型的爆发式进步为语音领域的初创企业提供了令人兴奋的机会。随着语音领域中基础模型和基础设施技术的持续改进，我们预计将会有更多的产品涌现出来，解决越来越复杂的语音对话问题。我们期待与在这个领域不断推动创新、并在各个阶段发展的最具雄心的创始人合作。

原文：Roadmap: Voice AI

https://www.bvp.com/atlas/roadmap-voice-ai

编译：Jie Sun