index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本文深入探讨了AI语音智能体在2025年的发展趋势,指出语音已成为AI应用的关键机遇。随着AI模型的进步,语音正从基础设施层过渡到应用层,并逐渐在企业中取代人工,实现成本效益和效率提升。文章分析了语音智能体在对话质量、延迟和情感表达方面的进展,以及其在中小企业和大型企业中的应用。此外,还探讨了市场演变、融资情况以及a16z在语音智能体领域的投资策略,强调了行业首选、法规驱动、效果更佳等项目特色,并分析了AI语音面试官的案例,最后提出了2025年关于AI语音的一些核心问题,例如定价模式、模式扩展、最终愿景等。
🚀 **技术进步与成本降低**:AI语音技术在2024年取得显著进展,OpenAI等公司推出了具备实时语音功能的新模型,并大幅降低了API价格,使得语音智能体的部署成本效益日益显著。
🤖 **应用场景拓展**:语音智能体正被广泛应用于各种场景,包括非工作时间/过载呼叫处理、全新的外呼电话以及企业内部沟通等,尤其是在呼叫中心或外包服务等领域,能够显著提升效率、降低风险。
💰 **市场融资火热**:2024年AI语音领域融资活动频繁,涌现出众多模型公司、通用型平台和垂直化平台,吸引了大量投资,例如ElevenLabs、Hume、Cartesia等公司都获得了高额融资,预示着该领域的巨大潜力。
🎯 **垂直领域机会**:金融服务、保险、政府部门和医疗保健等领域是语音助手最自然的早期应用类别,这些领域可能会有各自的核心供应商,并涌现大量的初创企业,尤其是在高薪职位领域,AI语音助手可以作为模拟器,提升员工实际工作表现。

语音是 AI 应用公司的一个关键机遇。作为人类最高频(且信息密度最大)的沟通方式,语音这项基础能力在 AI 时代首次实现「可编程化」。
对于企业而言,AI 提供了一种技术替代方案来取代人工,具有成本效益、速度更快、可靠性更高,而且通常性能更优。此外,语音智能体使企业能够保持全天候的客户服务,无缝处理咨询、安排预约和处理交易。这有效地消除了传统营业时间的限制,确保了持续的在线可用性,与过去的局限性形成鲜明对比(试想一下,在太平洋时间下午 3 点之后尝试联系一家美国东海岸银行)。
对于消费者而言,我们预计语音将成为与 AI 交互的最初甚至可能是主要的模式。这种交互可能表现为随时可用的伴侣或导师,或者通过使语言学习等服务更广泛地可用,这些服务以前对许多人来说遥不可及。
我们目前正从 AI 语音的基础设施层过渡到应用层。随着 AI 模型的不断进步,语音将成为一个关键的切入点,而不是最终产品本身。我们特别看好那些利用这种「语音优先」方法来解锁更广阔平台机遇的初创公司。
作者介绍:Olivia Moore 是 Andreessen Horowitz 风险投资公司消费领域投资团队的合伙人,专注于 AI 领域的投资。
01
AI 语音新动态

2024 年 AI Voice 技术进展
OpenAI 开始推广高级语音模式
Speechmatics 推出实时对话模型 Flow
亚马逊将 Claude 整合到 Alexa 中
Meta 与名人合作,将他们的声音用于 AI 伴侣
NotebookLM 音频概述功能爆火
PlayHT 升级 2.0 版模型
ElevenLabs 推出对话式 AI
英伟达推出能够修改语音的模型 Fugatto
模型开发的持续进步简化了基础设施「堆栈」,显著降低了语音智能体的延迟并提升了性能。近半年来,这些改进主要体现在新一代对话模型中。
这些对话模型的成本效益也日益显著。例如,OpenAI 于 2024 年 12 月大幅降低了 GPT-4o 实时 API 的价格,输入价格降低了 60%(至每百万 tokens 40 美元),输出价格降低了 87.5%(至每百万 tokens 2.50 美元)。GPT-4o mini 现在也可实时部署使用。
新变化:2024 年 5 月与 2025 年 1 月对比
02
AI Agents 现在发展到哪一步了
语音智能体在对话质量(包括延迟、可打断性和情感表达)方面取得了显著进展,其性能已达到甚至超越传统业务流程外包/呼叫中心水平。这一提升主要得益于 OpenAI 的实时语音模型以及 ElevenLabs 的 Conversational AI 等供应商所提供的创新模型。对于中小型企业和大型企业而言,智能体产品能以极快的速度帮助其拓展业务,因为它们可以直接用技术替代人力资源。然而,由于市场准入门槛相对较低,传统企业在应用这些产品时可能会面临挑战。上市速度、执行力以及后续的产品迭代是成功的关键。早期,许多语音产品采用按分钟定价的模式,以反映模型成本。但随着模型成本的降低,这种定价模式正面临越来越大的压力,并导致供应商之间的价格竞争。未来,定价策略可能会转向固定平台费用与使用量计费相结合的模式。语音智能体市场在 2024 年下半年爆炸性增长。Cartesia 的数据显示,最近一届 Y Combinator (YC) 创业营中,有 22% 的公司专注于语音技术开发。
YC 中语音公司的增长情况
语音智能体也正作为一种功能被添加到更多的通用型或多模态产品中。在 2024 年,我们看到多个层次的对话语音技术公司吸引了资金和关注,包括:模型公司:如 ElevenLabs 和 Cartesia垂直化平台:如 HappyRobot 和 Wayfaster
尤其对于大型企业,我们很少看到从完全人工接听电话到完全 AI 接听电话的直接转变。创始人通常会找到一个「切入点」,从处理一小部分客户呼叫开始——(希望)这可以随着时间的推移扩展到处理更多的电话类型和工作流程。我们看到的切入点包括以下这些:这些电话原本会转到语音信箱。语音智能体至少能收集(或共享)更多信息,并安排人工回拨。更进一步,如果语音智能体能与日程安排软件、客户关系管理系统等集成,甚至可以直接为客户完成预订或交易。这类外呼电话以往因成本过高而难以实施。借助 AI,任何产生的收益都可视为额外利润。需要进行深度集成,例如,客户只需上传包含电话号码的电子表格即可启动外呼流程。企业在非客户导向的内部电话沟通上耗费大量时间,例如与供应商、合作伙伴之间的联络,常常面临漫长的等待。以医疗诊所为例,它们需要频繁地与药房、保险公司、供应商等进行电话沟通。即使语音智能体仅能完成简单的 IVR 导航和转接,也能显著提升效率,降低风险。03
市场演变:融资情况
模型公司
ElevenLabs (语音模型平台): 8000 万美元 B 轮 (2024 年 1 月) - a16z, Nat Friedman, Daniel GrossHume (语音模型平台): 5000 万美元 B 轮 (2024 年 3 月) - EQTPlayAI (语音模型平台): 2100 万美元 种子轮 (2024 年 11 月) - Kindred VenturesCartesia (语音模型平台): 2700 万美元 种子轮 (2024 年 12 月) - Index VenturesWaveForms AI (音频 LLM 公司): 4000 万美元 种子轮 (2024 年 12 月) - a16z
通用型平台
Kore (企业对话式 AI): 1.5 亿美元 C 轮 (2024 年 1 月),FTV Capital, NVIDIARasa (开发者对话式平台): 3000 万美元 C 轮 (2024 年 2 月) - PayPal, a16zParloa (客户服务语音智能体): 6600 万美元 B 轮 (2024 年 4 月) - AltimeterPolyAI (助手构建器): 5000 万美元 C 轮 (2024 年 5 月) - Hedosophia, NVIDIA, ZendeskSynthflow (无代码语音智能体构建器): 740 万美元 种子轮 (2024 年 6 月) - SingularThoughtly (呼叫中心语音智能体): 300 万美元 种子轮 (2024 年 6 月) - Greycroft, AforeBland (企业智能体平台): 2200 万美元 A 轮 (2024 年 8 月) - ScaleRetell AI (开发平台): 460 万美元 种子轮 (2024 年 8 月) - Alt Capital11x (销售): 2400 万美元 A 轮 (2024 年 9 月) - Benchmark;5000 万美元 B 轮 (2024 年 10 月) - a16zDecagon (客户支持): 3500 万美元 A 轮 (2024 年 6 月) - Accel, a16z;6500 万美元 B 轮 (2024 年 10 月) - Bain Capital VenturesSierra (客户支持): 1.75 亿美元 B 轮 (2024 年 10 月) - GreenoaksArtisan (销售): 1150 万美元 种子轮 (2024 年 10 月) - Oliver JungVapi (开发者平台): 2000 万美元 A 轮 (2024 年 12 月) - Bessemer
垂直化平台
Hippocratic AI (医疗保健语音智能体): 5300 万美元 A 轮 (2024 年 3 月) - a16z, General Catalyst;1.41 亿美元 B 轮 (2025 年 1 月) - Kleiner PerkinsAssort Health (医疗保健前台智能体): 350 万美元 种子轮 (2024 年 3 月) - Quiet CapitalVoicepanel (客户反馈智能体): 240 万美元 种子轮 (2024 年 5 月) - YC, Rebel Fund, Liquid2Letter (AI 销售指导): 270 万美元 种子轮 (2024 年 6 月) - YC, Formus CapitalSolidroad (联络中心培训): 120 万美元 种子轮 (2024 年 7 月) - Irish angelsApriora (AI 面试官): 280 万美元 种子轮 (2024 年 8 月) - 1984Wayfaster (语音 AI 面试官): 250 万美元 种子轮 (2024 年 9 月) - Slow VenturesPrepared911 (紧急响应): 2700 万美元 B 轮 (2024 年 10 月) - a16zFullyRamped (AI 销售培训): 230 万美元 种子轮 (2024 年 10 月) - BoxGroupParakeet Health (医疗保健前台智能体): 300 万美元 种子轮 (2024 年 10 月) - CanvasHelloPatient (医疗保健语音智能体): 630 万美元 种子轮 (2024 年 10 月) - 8VC, Bling Capital, Max VenturesNuma (汽车经销商语音智能体): 3200 万美元 B 轮 (2024 年 10 月) - Touring Capital, MitsuiHappyRobot (物流语音智能体): 1560 万美元 A 轮 (2024 年 12 月) - a16zTenor (AI 领导力发展): 540 万美元 种子轮 (2024 年 12 月) - Base10Hyro (医疗保健语音智能体): 3500 万美元 B 轮 (2024 年 12 月) - Healthier CapitalMaki (语音 AI 面试官 / HR): 2860 万美元 A 轮 (2025 年 1 月) - Blossom
04
重点领域:核心市场
语音助手最自然的早期应用类别通常是在呼叫中心或外包服务(BPO)上已有较高支出的领域。如果电话作为本地员工的日常工作:(1)除非有大量员工专门负责电话沟通,否则现有痛点或潜在收益通常不足以推动变革;(2)也很难量化实施效果或成本节约,从而难以提出有力的论证。
全球「联络中心即服务」市场份额:按终端应用行业分析这些主要领域(金融服务、B2C、B2B、政府和医疗保健)可能会有各自的核心供应商,类似于它们各自的记录系统。(1)金融服务:如债务催收;
(2)保险:包括面向客户和后台运营;
(3)政府部门;
(4)支持服务:包括需要专业知识的复杂客户服务(如 IT 帮助)。除了呼叫中心应用,我们还观察到企业愿意为用于辅导或培训的 AI 语音助手付费,尤其是在高薪职位领域。在这些行业中,高度仿真的语音助手可以作为模拟器,显著提升员工的实际工作表现,从而替代部分人力成本(如销售教练)或效果不佳的培训软件。自 2020 年以来,Y Combinator 已经孵化了 90 家语音智能体公司,且这一趋势正在加速,最新的尚未完全公布的 W25 批次中就有 10 家。值得注意的是,在 2023 年之前成立的公司中,大部分都是在过去一年内转型进入语音智能体领域的。
YC 孵化的 Voice Agent 公司
YC 孵化的语音助手项目主要集中在 B2B (约 69%) 和医疗保健 (约 18%) 领域,消费类应用占比相对较小 (约 13%)。在 B2B 领域,金融科技 (16.9%) 和运营 (主要为客户支持,12.4%) 是最常见的子行业。在医疗保健领域,语音助手的应用方向分为前台(面向患者)和后台(面向药房、保险等),重点关注普通人类医学 (11.2%)、牙科 (3.4%)、兽医 (2.2%) 和物理治疗 (1.1%)。
05
a16z 对语音智能体的投资
06
Voice Agents 市场图谱

Voice Agents 市场图谱 - B2B

Voice Agents 市场图谱 - B2C
07
我们在 AI 语音中寻找什么?
a16z 重视的 Voice Agent 项目特色
行业首选:电话是客户演示的首选方式(例如物流行业)。法规驱动:由于法规限制,电话沟通更有效(例如债务催收)。效果更佳:电话比其他沟通方式成功率更高(例如医疗保健)。
目标明确:有一套明确的数据点需要收集或信息需要传递,且结果可衡量。
成本降低:语音助手在保持与人工相似成功率的前提下,能够降低 50% 以上的成本(通常意味着通话受到约束!) .客户目标:客户希望大幅削减或重新分配人力资源。由于内部对 AI 的怀疑态度,投资回报率需要非常可观。
极端情况:对于客户而言,通话至关重要,愿意支付高额费用以确保接通或完成,但对于呼叫方而言,允许一定程度的错误或失败。初期策略:许多客户从非工作时间/过载呼叫或「次级」呼叫开始,对性能要求较低。
中小企业/中型市场:语音助手产品易于集成到 VoIP 或其他软件中,并且设置是自助式的。大型企业:早期更复杂的集成实际上可以形成护城河,因为呼叫并非如此。或者,早期集成复杂度较低,并具有自然的「先着陆后扩张」潜力。
08
案例分析:AI 语音面试官
将 AI 语音智能体应用于工作面试,看似是一个冷门方向。这主要是因为面试过程复杂(需要与人类面试官相媲美),且对用户体验要求很高(需要确保良好的候选人体验)。然而,我们已经看到一些初创公司在该领域取得了显著的早期进展。以下是来自客户的一些洞见:对于人力资源公司(尤其是那些服务于高流量、低至中等技能岗位的公司,例如拥有 43 家上市公司客户,年收入达 6500 亿美元的企业),招聘压力尤为显著。在这些场景下,AI 面试可以有效地替代传统的电话筛选,甚至承担更多的流程。原因如下:「我们现在发送的候选人中大约有 90%能进入第一轮[与雇主]面试,75-80%能进入最后一轮。在[AI 语音面试初创公司]之前,我们的数字只有一半。」 —— 财富 100 强的人力资源公司
许多 AI 面试产品的表现已经达到甚至超过了人类招聘人员的水平,主要得益于以下几个方面:
随时随地:候选人可以根据自己的时间安排,随时随地进行面试。
评估一致性:AI 的评估标准始终如一。即使招聘需求发生变化,客户也可以轻松地重新评估之前的面试记录。
语言无障碍:不存在因语言或口音造成的沟通障碍。
专业知识:AI 通常能够更准确地评估技术或职位相关的答案,避免了因招聘人员经验不足而导致的误判。
「受访者往往以一种他们可能不会对人类面试官表现出的方式开始与 AI 建立信任。招聘人员可能没有经验去理解受访者所说的话。AI 可以从系统中读取信息,并给出更聪明、更吸引人的回应。」—— 年收入 2 亿美元的招聘机构

AI 语音面试官产品
09
2025 年关于 AI 语音的一些核心问题
起初,按分钟计费的定价模式曾被多家公司广泛采用。然而,随着模型成本的持续降低,这种模式的吸引力正逐渐减弱。由于客户敏锐地察觉到成本的降低,他们也期望享受到更优惠的定价。展望未来,什么样的定价模式将会更受青睐?预计可能会采用平台费用与基于使用量的组合模式。在哪些特定情况下,可以合理地收取实施费用或设定最低使用量门槛?模式扩展:公司应该在语音通话之外,多久扩展到其他渠道?没有任何企业或行业完全依赖电话——电子邮件、网络聊天、短信等都是重要的沟通渠道。公司应该多快扩展到电话以外的其他方式?是先完整捕捉一个工作流程更好,还是先处理所有电话?许多语音助手宣传其最终愿景是取代其类别中的 xMS(编者注:即各类型「记录系统软件」,用于存储和管理企业核心数据,例如客户关系管理 (CRM) 系统等)。在什么类别中这实际上是可能的/可能发生的?如果许多企业已经为处理电话支付的费用超过了他们为 xMS 支付的费用,这是否重要?许多早期的语音助手来自于高度技术化的团队,他们在被吸引到某个领域/市场后,付出了努力去学习。随着技术壁垒的降低,这是否会变成一个市场推广的游戏,技术能力较弱但行业专业知识更丰富的团队会占据优势?这在不同领域会有什么不同的表现?一些企业可能更喜欢使用通用平台构建自己的 AI 语音智能体,而不是使用垂直的、特定于市场的解决方案。在哪些行业和规模中,这种「自建」方法最有可能?垂直解决方案如何服务于可能更喜欢单一供应商的跨垂直企业?AI 语音智能体在情感维度上展现出超越人类的潜力。它们拥有更强的专注力、同理心和耐心,且理论上可以提供无限时长的服务。在某些特定领域,这种优势尤其能够帮助企业与客户建立更深层次的情感连接。然而,目前该领域的潜力尚未得到充分挖掘。我们期待更多创业者能够在关键垂直领域围绕这一主题进行创新,构建更具情感价值的客户关系。原文:https://a16z.com/ai-voice-agents-2025-update/
转载原创文章请添加微信:founderparker内容中包含的图片若涉及版权问题,请及时与我们联系删除