投资实习所 2024年12月10日
a16z 给一 5 人团队种子轮投了 4000 万美金,Stability AI 已实现 3 位数增长
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Stability AI在经历财务危机后,新CEO Prem Akkaraju带领公司实现三位数增长并重获投资人青睐。与此同时,前OpenAI高级语音共同创造者Alexis Conneau创立WaveForms AI,获a16z种子轮4000万美元投资,专注于打造情感通用智能(EGI),通过音频智能使AI更具人性化。WaveForms AI的核心理念是让AI真正关心人类,优先考虑共情和情感连接,其音频LLM能够捕捉声音的情感细微差别,实时响应,并以复杂的情感作出回应。

🤖 Stability AI 在经历了严重的财务和领导力危机后,通过新任 CEO Prem Akkaraju 的领导,成功实现了业务的三位数增长,摆脱了所有负债,并重新赢得了包括 Coatue 和 Lightspeed 在内的投资人的支持,甚至吸引了 Facebook 前总裁 Sean Parker 和著名导演卡梅隆加入董事会,展现了惊人的企业复苏能力。

💖 WaveForms AI 由前 OpenAI ChatGPT 高级语音共同创造者 Alexis Conneau 创立,获得了 a16z 4000 万美元的种子轮投资,估值达到 2 亿美元,该公司专注于开发情感通用智能(EGI),旨在通过音频智能技术,使 AI 能够更好地理解和响应人类的情感,实现更自然、个性化的人机交互。

🗣️ WaveForms AI 的核心技术是端到端音频语言模型(音频 LLM),与传统的文本到语音系统不同,音频 LLM 能够原生处理音频输入和输出,捕捉声音中的情感细微差别,并实时作出具有复杂情感的回应,从而创造出更具影响力和情感力量的体验。

🧠 Alexis Conneau 强调,WaveForms AI 的目标不是让 AI 更聪明,而是让 AI 更有人性,更好地与人交流。他认为,人们会选择最愉快的交流方式,而音频智能将成为未来人机交互的重要方式。

📈 语音 AI 领域展现出巨大的市场潜力,ElevenLabs 和腾讯参投的音频内容平台等公司的快速增长证明了这一点。a16z 将语音 AI 视为一个独立的投资主题,并认为情感智能将成为 AI 发展的重要方向。

原创 StartupBoy 2024-12-10 13:13 广东

声音是人性和情感真正鲜活的地方

Stability AI 可能会成为 AI 领域又一个很有意思的案例,4 月份前 CEO 因被投资人指责在领导力和财务方面混乱而辞职,导致整个公司处于破产收购边缘。

当时据说其收入还不到 500 万美金,但每个季度的亏损就超过了 3000 万美金,因此很多投资人都放弃了公司。但是6 月份 Stability AI 迎来了新的 CEO Prem Akkaraju,经过 6 个月的努力,Akkaraju 最近声称,Stability AI 已实现了 3 位数增长,并且已经不再有任何的负债,同时之前放弃了 Stability 的投资人都回来了,可以说是非常了不起。

Akkaraju 说 Stability AI 之前非常糟糕,糟糕到比之前苹果在 1997 年离破产只有 90 天还要糟糕,几乎接近破产。现在,不仅重新拿了新的融资,之前抛弃了 Stability 的 Coatue 和 Lightspeed 都重新回到了董事会,并且再次对其进行了投资(投资金额据说在 8000 万美金)。

此外,Stability 的投资人和董事会里还加入了 Facebook 前总裁 Sean Parker 和著名导演卡梅隆,其中 Sean Parker 担任执行董事长,Sean Parker 与 Akkaraju 的配合可以说打的非常漂亮。虽然 Akkaraju 没有透露具体的收入细节,但是他说公司现在的业务重心是 API 和许可服务,这让整体收入实现了 3 位数的增长

Akkaraju 之前在一家叫 Weta Digital 的公司,这是一家视频特效公司,曾参与了多部漫威电影以及卡梅隆(James Cameron)执导的《阿凡达》电影的制作。

他在今年 6 月被正式任命为 CEO 之前就开始参与稳定公司的工作,在与投资人达成交易和摆脱稳定公司所有债务的过程中,他给卡梅隆打了电话,最后卡梅隆加入了公司董事会。

Stability AI 这半年的转型被一些投资人称为是一个奇迹,Greycroft 的一位投资人称,只有抓住别人看不到的机会才能获得超额回报,但他也没有透露这个别人没有看到的具体机会是啥,或许后续 Stability AI 的发展会透露更多关于这一段的转型经历。

另外,在我很看好的语音 AI 这块,继 Hume AI 之前推出共情 AI 语音接口以及 OpenAI 等大模型推出高级语音模式后,这个领域又迎来了一个新的重量级玩家,a16z 直接在种子轮投了 4000 万美金,估值 2 亿美金。

而其团队目前只有 5 个人,它声称要打造一个情感通用智能(EGI):创造一种人类与AI之间自然、个性化且深度互动的连接。我们相信我们的使命是让AI真正关心人类,优先考虑共情和情感连接,而不是单纯追求超级智能。

这就是由前 OpenAI ChatGPT 高级语音共同创造者之一 Alexis Conneau 出来做的语音情感 AI 产品 WaveForms AI, WaveForms AI 在官方网站上说:

端到端音频语言模型让我们更接近与人工智能进行无缝、类人交流的梦想。音频模型现在已经能够实现实时、情感共鸣且沉浸式的语音交互。

WaveForms AI 的诞生是为了将这一愿景推向更远,并释放音频智能的全部潜力。我们的使命既简单又雄心勃勃:我们将解决语音图灵测试,并推动人工智能迈向能够激发灵感和连接人心的沉浸式体验。

Alexis Conneau 说,声音是人性和情感真正鲜活的地方,它以一种文字永远无法做到的方式传递深度、细微差别和人类互动的真实性。通过声音,我们不仅仅是交换词语——我们分享意义、共鸣和连接,创造出深具人性化的纽带。

与文本到语音系统不同,音频 LLM 能够原生处理音频输入和输出。这使它们能够捕捉声音的情感细微差别,实时响应,并以复杂的情感作出回应。通过理解对话的完整上下文,其模型将创造出前所未有的更有意义、更具影响力、更富有情感力量的体验。

因此 WaveForms AI 要创造 AI 智能的一个新维度:音频智能。通过为 AI 注入社会情感层面,将使其更接近于人类的根本特质:我们的情感、关系以及彼此互动的方式

创立 WaveForms AI 的 Alexis Conneau 之前是 OpenAI GPT4-o 高级语音模式神经网络的共同创造者之一,另一位联合创始人 Coralie Lemaitre 来自 Google,现在也是他的妻子;CTO Kartikay Khandelwal 之前则领导了 PyTorch 的 AI 生态,除此之外还有两位员工。

Alexis Conneau 说他的新公司将帮助人们用耳朵 "感受人工智能",他认为在未来,与 AI 对话将成为与各种技术互动的一种更常见的方式,这可能包括与汽车对话、与电脑对话。因此 WaveForms 的目标是提供 "情感智能 "AI,为这一切提供便利。

他提到之前 ChatGPT 语音模式的区别,旧的语音模式只是将语音翻译成文本,然后通过 GPT-4 运行,再将文本转换回语音。但在高级语音模式中,GPT-4o 实际上是将语音分解成标记(每秒的音频大约等于三个标记),并直接通过音频专用模型运行这些标记,这也是高级语音模式能够实现如此低延迟的原因。

我们经常提到的一个说法是,音频 LLM 模型可以“理解情感”。就像基于文本的 LLM 是基于在成堆的文本文档中发现的模式一样,音频 LLM 也是通过人类说话的音频片段来做同样的事情。人类会将这些片段标注为 "悲伤 "或 "兴奋",这样 AI 模型在听到你说这些话时就能识别出类似的声音模式,甚至能用自己的情感语调做出回应。因此,与其说它们“理解情绪”,不如说它们系统地识别出人类与这些情绪相关联的音频特质。

Alexis Conneau 的这个想法我比较认同,他说像 OpenAI 和其它大模型核心是在让 AI 更聪明,但是他的目标是让 AI 更有人性,也就是让 AI 更好的与人交流,人们会选择对他们来说最愉快的交流方式。

Alexis Conneau 是前 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 招过来的人,他们在很多理念上比较类似,Alexis 说 Ilya Sutskever 经常和他谈论“感受 AGI”,也就是用直觉来评估我们是否已经达到了超智能人工智能。

a16z 在其博客里说,现在是时候将情感智能引入人工智能了。在很多领域,AI 的推理能力非常重要,但是在其它一些领域,情商与智商同样重要,为了创造最身临其境、最像人类的体验,我们需要让人工智能真正感觉像是在与人交谈,这包括让人工智能发出声音

语音 AI 领域的应用,我们从 ElevenLabs 的快速增长《语音 AI 2 年 8000 万美金 ARR 估值 30 亿,又一法律 AI 估值 10亿美金了》,以及通过语音听各种娱乐内容的类播客产品做到 1 亿美金 ARR《腾讯参投的音频版 Netflix 快速崛起,1.5 亿美金 ARR 估值超 10 亿美金》,就能看到这块的需求是多么的庞大,而最近 ElevenLabs 更是自己下场做各种应用场景。


·END· 

加入 Memo Pro 会员,获取更多趋势信号



Memo: Signal, not noise!

扫码或点击「阅读原文」继续阅读

订阅 Memo Pro


Memo(vcsmemo.com)是一个基于付费订阅模式的创投内容平台,已得到大量 VC、企业 CEO 以及高管的支持,我们希望帮助你捕捉最具价值的趋势信号、过滤噪音(Signal,Not Noise)。


订阅 Memo Pro 你将获得:


1.解锁未来一年以及之前的所有会员专属内容

2.邮件订阅功能:付费内容+最新行业快讯+...

3.优先体验 Memo 新产品和新功能

4.后台回复“发票”获得开票入口


限时 799 元/年(原价 999 元/年),扫码立即订阅

语音 AI 2 年 8000 万美金 ARR,又一法律 AI 估值 10 亿美金了


腾讯参投的音频版 Netflix 快速崛起,1.5 亿美金 ARR 估值超10 亿美金


语音 AI 重塑中国社交和消费的未来


估值超 1 亿美金,它将实时语音和视频无缝嵌入到任何应用


a16z 将语音 AI 作为一个独立投资主题,行业图谱展示投资机会


ChatGPT 语音功能全开放了,这是 OpenAI 第二次驱赶 CEO 事件


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 语音AI 情感智能 音频LLM WaveForms AI
相关文章