Founder Park 02月08日
a16z发布2025 AI语音图谱:语音将成为与AI交互的主要模式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI语音正经历从基础设施层向应用层的关键过渡。AI的“可编程化”语音能力为企业提供了更具成本效益、速度更快和可靠性更高的技术替代方案,优化客户服务并消除传统营业时间的限制。消费者也将受益于语音交互,享受个性化服务和更广泛的学习机会。随着AI模型的进步,语音不再是最终产品,而是一个关键的切入点,为初创公司解锁更广阔的平台机遇。文章分析了AI语音领域的最新动态、AI Agents的发展现状、市场演变以及融资情况,并探讨了AI语音在不同行业的应用前景。

🚀AI语音技术正从基础设施层向应用层过渡,为企业提供技术替代方案,优化客户服务,并为消费者带来个性化体验。

🗣️新一代对话模型在延迟、可打断性和情感表达方面取得显著进展,成本效益也日益显著,推动了语音智能体的发展。

🏢语音智能体在企业中的应用场景包括处理非工作时间/过载呼叫、全新的外呼电话以及“后台”电话,从而提升效率并降低成本。

💰过去一年,AI语音领域涌现出大量的融资案例,涵盖模型公司、通用型平台和垂直化平台,预示着该领域竞争将更加激烈。

RTE开发者社区 2025-02-06 17:10 北京

AI 语音正从基础设施层过渡到应用层

文章转载自「RTE 开发者社区」。

「我们正从 AI 语音的基础设施层过渡到应用层」,继 24 年 5 月推出首篇关于 Voice AI 的报告后,25 年初 a16z 再次更新了语音 AI 赛道的最新洞察。

语音是 AI 应用公司的一个关键机遇。作为人类最高频(且信息密度最大)的沟通方式,语音这项基础能力在 AI 时代首次实现「可编程化」。

对于企业而言,AI 提供了一种技术替代方案来取代人工,具有成本效益、速度更快、可靠性更高,而且通常性能更优。此外,语音智能体使企业能够保持全天候的客户服务,无缝处理咨询、安排预约和处理交易。这有效地消除了传统营业时间的限制,确保了持续的在线可用性,与过去的局限性形成鲜明对比(试想一下,在太平洋时间下午 3 点之后尝试联系一家美国东海岸银行)。

对于消费者而言,我们预计语音将成为与 AI 交互的最初甚至可能是主要的模式。这种交互可能表现为随时可用的伴侣或导师,或者通过使语言学习等服务更广泛地可用,这些服务以前对许多人来说遥不可及。

我们目前正从 AI 语音的基础设施层过渡到应用层。随着 AI 模型的不断进步,语音将成为一个关键的切入点,而不是最终产品本身。我们特别看好那些利用这种「语音优先」方法来解锁更广阔平台机遇的初创公司。

作者介绍:Olivia Moore 是 Andreessen Horowitz 风险投资公司消费领域投资团队的合伙人,专注于 AI 领域的投资。  


01 

AI 语音新动态

2024 年是 AI 语音发展的一个重要年份。

2024 年 AI Voice 技术进展

五月

六月

七月

八月

九月

十月

十一月

十二月

模型开发的持续进步简化了基础设施「堆栈」,显著降低了语音智能体的延迟并提升了性能。近半年来,这些改进主要体现在新一代对话模型中。

这些对话模型的成本效益也日益显著。例如,OpenAI 于 2024 年 12 月大幅降低了 GPT-4o 实时 API 的价格,输入价格降低了 60%(至每百万 tokens 40 美元),输出价格降低了 87.5%(至每百万 tokens 2.50 美元)。GPT-4o mini 现在也可实时部署使用。

新变化:2024 年 5 月与 2025 年 1 月对比


02 

AI Agents 现在发展到哪一步了

AI Agents 的当前发展

    模型质量

语音智能体在对话质量(包括延迟、可打断性和情感表达)方面取得了显著进展,其性能已达到甚至超越传统业务流程外包/呼叫中心水平。

这一提升主要得益于 OpenAI 的实时语音模型以及 ElevenLabs 的 Conversational AI 等供应商所提供的创新模型。

    GTM

对于中小型企业和大型企业而言,智能体产品能以极快的速度帮助其拓展业务,因为它们可以直接用技术替代人力资源。

然而,由于市场准入门槛相对较低,传统企业在应用这些产品时可能会面临挑战。上市速度、执行力以及后续的产品迭代是成功的关键。

    货币化

早期,许多语音产品采用按分钟定价的模式,以反映模型成本。

但随着模型成本的降低,这种定价模式正面临越来越大的压力,并导致供应商之间的价格竞争。

未来,定价策略可能会转向固定平台费用与使用量计费相结合的模式。

    竞争

面向企业的语音智能体面临来自以下几个方面的竞争:

我们预计未来市场竞争将会更加激烈!

语音智能体市场在 2024 年下半年爆炸性增长。Cartesia 的数据显示,最近一届 Y Combinator (YC) 创业营中,有 22% 的公司专注于语音技术开发。

YC 中语音公司的增长情况

语音智能体也正作为一种功能被添加到更多的通用型或多模态产品中。

在 2024 年,我们看到多个层次的对话语音技术公司吸引了资金和关注,包括:

尤其对于大型企业,我们很少看到从完全人工接听电话到完全 AI 接听电话的直接转变。创始人通常会找到一个「切入点」,从处理一小部分客户呼叫开始——(希望)这可以随着时间的推移扩展到处理更多的电话类型和工作流程。我们看到的切入点包括以下这些:

B2B Voice Agent 发展切入点

1.非工作时间/过载呼叫

这些电话原本会转到语音信箱。语音智能体至少能收集(或共享)更多信息,并安排人工回拨。

更进一步,如果语音智能体能与日程安排软件、客户关系管理系统等集成,甚至可以直接为客户完成预订或交易。

2.全新的外呼电话

这类外呼电话以往因成本过高而难以实施。借助 AI,任何产生的收益都可视为额外利润。

这些电话包括客户确认、账户激活、潜在客户挖掘等。

需要进行深度集成,例如,客户只需上传包含电话号码的电子表格即可启动外呼流程。

3.「后台」电话

企业在非客户导向的内部电话沟通上耗费大量时间,例如与供应商、合作伙伴之间的联络,常常面临漫长的等待。

以医疗诊所为例,它们需要频繁地与药房、保险公司、供应商等进行电话沟通。

即使语音智能体仅能完成简单的 IVR 导航和转接,也能显著提升效率,降低风险。


03 

市场演变:融资情况

过去一年公开宣布的融资轮次

模型公司

通用型平台

垂直化平台


04 

重点领域:核心市场

语音助手最自然的早期应用类别通常是在呼叫中心或外包服务(BPO)上已有较高支出的领域。如果电话作为本地员工的日常工作:(1)除非有大量员工专门负责电话沟通,否则现有痛点或潜在收益通常不足以推动变革;(2)也很难量化实施效果或成本节约,从而难以提出有力的论证。

全球「联络中心即服务」市场份额:按终端应用行业分析

这些主要领域(金融服务、B2C、B2B、政府和医疗保健)可能会有各自的核心供应商,类似于它们各自的记录系统。

我们预计以下领域将涌现大量的初创企业:

(1)金融服务:如债务催收;

(2)保险:包括面向客户和后台运营;

(3)政府部门;

(4)支持服务:包括需要专业知识的复杂客户服务(如 IT 帮助)。

除了呼叫中心应用,我们还观察到企业愿意为用于辅导或培训的 AI 语音助手付费,尤其是在高薪职位领域。在这些行业中,高度仿真的语音助手可以作为模拟器,显著提升员工的实际工作表现,从而替代部分人力成本(如销售教练)或效果不佳的培训软件。

自 2020 年以来,Y Combinator 已经孵化了 90 家语音智能体公司,且这一趋势正在加速,最新的尚未完全公布的 W25 批次中就有 10 家。值得注意的是,在 2023 年之前成立的公司中,大部分都是在过去一年内转型进入语音智能体领域的。

YC 孵化的 Voice Agent 公司

YC 孵化的语音助手项目主要集中在 B2B (约 69%) 和医疗保健 (约 18%) 领域,消费类应用占比相对较小 (约 13%)。

在 B2B 领域,金融科技 (16.9%) 和运营 (主要为客户支持,12.4%) 是最常见的子行业。在医疗保健领域,语音助手的应用方向分为前台(面向患者)和后台(面向药房、保险等),重点关注普通人类医学 (11.2%)、牙科 (3.4%)、兽医 (2.2%) 和物理治疗 (1.1%)。


05 

a16z 对语音智能体的投资


06 

Voice Agents 市场图谱

Voice Agents 市场图谱 - B2B

Voice Agents 市场图谱 - B2C


07

我们在 AI 语音中寻找什么?

a16z 重视的 Voice Agent 项目特色

    应用场景:电话是关键媒介

    通话特性:受限且可控

    价值体现:显著降低成本

    客户需求:高优先级或高价值通话

    价值创造:直接收益或成本优化

对于客户而言,通话要么是:

    销售策略:灵活适应不同规模客户


08 

案例分析:AI 语音面试官

将 AI 语音智能体应用于工作面试,看似是一个冷门方向。这主要是因为面试过程复杂(需要与人类面试官相媲美),且对用户体验要求很高(需要确保良好的候选人体验)。然而,我们已经看到一些初创公司在该领域取得了显著的早期进展。以下是来自客户的一些洞见:

痛点:大规模招聘场景下的人力资源挑战

对于人力资源公司(尤其是那些服务于高流量、低至中等技能岗位的公司,例如拥有 43 家上市公司客户,年收入达 6500 亿美元的企业),招聘压力尤为显著。在这些场景下,AI 面试可以有效地替代传统的电话筛选,甚至承担更多的流程。原因如下:

「我们现在发送的候选人中大约有 90%能进入第一轮[与雇主]面试,75-80%能进入最后一轮。在[AI 语音面试初创公司]之前,我们的数字只有一半。」 —— 财富 100 强的人力资源公司

许多 AI 面试产品的表现已经达到甚至超过了人类招聘人员的水平,主要得益于以下几个方面:

「受访者往往以一种他们可能不会对人类面试官表现出的方式开始与 AI 建立信任。招聘人员可能没有经验去理解受访者所说的话。AI 可以从系统中读取信息,并给出更聪明、更吸引人的回应。」—— 年收入 2 亿美元的招聘机构

AI 语音面试官产品


09 

2025 年关于 AI 语音的一些核心问题

定价:什么将是首选的定价模型?

起初,按分钟计费的定价模式曾被多家公司广泛采用。然而,随着模型成本的持续降低,这种模式的吸引力正逐渐减弱。由于客户敏锐地察觉到成本的降低,他们也期望享受到更优惠的定价。展望未来,什么样的定价模式将会更受青睐?预计可能会采用平台费用与基于使用量的组合模式。在哪些特定情况下,可以合理地收取实施费用或设定最低使用量门槛?

模式扩展:公司应该在语音通话之外,多久扩展到其他渠道?

没有任何企业或行业完全依赖电话——电子邮件、网络聊天、短信等都是重要的沟通渠道。公司应该多快扩展到电话以外的其他方式?是先完整捕捉一个工作流程更好,还是先处理所有电话?

最终愿景:是否有可能替代 xMS?

许多语音助手宣传其最终愿景是取代其类别中的 xMS(编者注:即各类型「记录系统软件」,用于存储和管理企业核心数据,例如客户关系管理 (CRM) 系统等)。在什么类别中这实际上是可能的/可能发生的?如果许多企业已经为处理电话支付的费用超过了他们为 xMS 支付的费用,这是否重要?

行业与技术团队:谁更具优势?

许多早期的语音助手来自于高度技术化的团队,他们在被吸引到某个领域/市场后,付出了努力去学习。随着技术壁垒的降低,这是否会变成一个市场推广的游戏,技术能力较弱但行业专业知识更丰富的团队会占据优势?这在不同领域会有什么不同的表现?

通用与垂类:各自的优势与适用性是什么?

一些企业可能更喜欢使用通用平台构建自己的 AI 语音智能体,而不是使用垂直的、特定于市场的解决方案。在哪些行业和规模中,这种「自建」方法最有可能?垂直解决方案如何服务于可能更喜欢单一供应商的跨垂直企业?

情感纽带:语音助手能否加深客户关系?

AI 语音智能体在情感维度上展现出超越人类的潜力。它们拥有更强的专注力、同理心和耐心,且理论上可以提供无限时长的服务。在某些特定领域,这种优势尤其能够帮助企业与客户建立更深层次的情感连接。然而,目前该领域的潜力尚未得到充分挖掘。我们期待更多创业者能够在关键垂直领域围绕这一主题进行创新,构建更具情感价值的客户关系。

原文:https://a16z.com/ai-voice-agents-2025-update/

编译:施苏娜、傅丰元



更多阅读

DeepSeek正确使用指南!可以放弃提示词那套了

拾象科技闭门讨论:86 条 DeepSeek 的关键思考

DeepSeek R1 之后,提示词技巧的变与不变

Ben Thompson聊DeepSeek,硅谷关于DeepSeek最值得看的一篇

Anthropic创始人发声:DeepSeek事件前所未有,美国要继续加强出口管制


转载原创文章请添加微信:founderparker

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI语音 语音智能体 人工智能 市场分析 融资
相关文章